Google：文章から音声を直接合成、人手かけずより自然に - AIの最新論文を数式ゼロで要約するブログ

　Goolgeは深層学習を利用し、文章から高品質の音声を生成する新技術を開発した。文章を構成する文字列から直接音声を合成する*1手法で、人間が聴いたときに感じる「自然さ」で商用の技術を上回った。従来技術で欠かせなかった人手による細かい調整作業を省けるため、多様なデータを使って効率的かつ精度の高い学習ができる利点がある。

論文

　Tacotron：Towards End-to-end Speech Synthesis, Wang et al., arXiv:1703.10135, Apr 2017

研究の背景

　一般に音声合成技術は、入力となる文章を解析した後、音響の特徴を推定し、その後に出力の波形を合成するといった複数の手順を踏む必要がある。各段階で専門家の知識に基づく細かい設計作業を要するため、学習の手間がかかるうえ、誤差が複雑にからみ合って精度が落ちてしまう課題があった。

今回のポイント

Googleは今回、ニューラルネットワーク（コンピューター内に作った仮想的な神経回路網）を利用し、文字を入力するだけで周波数や振幅といった音声の構成要素*2を直接出力できるシステムを開発した。

　具体的には、ある系列データを別の系列データに変換する「SEQ2SEQ」と呼ぶネットワークに独自の改良を加えた。系列から重要な特徴をうまく抽出するためのネットワーク*3を新たに追加したほか、データの出力方法*4を工夫して学習の効率を高めた。そのうえでニューラルネットワークからの出力を波形に変換*5して音声を合成した。

　実際に英語の音声を生成し、ネイティブスピーカーに自然さを評価してもらったところ、Googleが過去に開発した商用レベルの技術を上回った。研究チームは開発したシステムを「Tacotron」と命名した。

応用可能性

　今後、ニューラルネットワークの構造や波形の合成技術などに改良を加えてさらに性能を高める方針。

*1:end-to-end

*2:スペクトログラム

*3:CNN、higway network、Bidirectional GRUで構成する

*4:正確には学習のターゲット

*5:Griffin-Limを利用