AIの最新論文を数式ゼロで要約するブログ

AI(機械学習/深層学習/強化学習など)の最新論文を数式や専門用語なしで解説するブログ

米NY大とFacebook:学習しやすい「GAN」、新規アルゴリズムを開発

 米ニューヨーク大学クーラント数理科学研究所とFacebook AI Researchは、深層学習の一手法であるGAN(敵対的生成ネットワーク)を学習しやすくする新たなアルゴリズムを開発した。通常のGANとは異なり、「ワッサースタイン距離*1」と呼ばれる指標を最小化するように学習を進める。同指標を使うと従来に比べて学習結果を改善するための方策を検討しやすくなるうえ、学習が安定する。

論文

 Wasserstein GAN, Arjovsky et al., arXiv:1701.07875, Dec 2017

研究の背景

 GANは本物の写真と見分けのつかない画像などを生成できる深層学習の重要技術だ。実際のデータがある確率分布から生成されていると考え、その確率分布を再現するようなニューラルネットワーク(コンピューター上に作成した仮想的な神経回路網)を学習を通じて構築する。ただ、学習がうまく進んでいるかを的確に測る指標がないなど、実用上の課題が残されている。

今回のポイント

 研究チームは今回、ニューラルネットワークが作る確率分布が実際のデータを生成している確率分布とどの程度近いかを測る手法として、「ワッサースタイン距離」と呼ばれる指標を採用した。ワッサースタイン距離は、学習の収束性など複数の数学的な性質が従来のGANで利用する指標よりも優れていることが理論的に示せる。

 ワッサースタイン距離を使ってGANを学習する新たなアルゴリズムを開発した。実際に画像生成に応用してみたところ、同指標が改善するにつれて人間が目で判断した画像の質も改善する傾向が確認できた。これにより、学習結果を改善するための戦略が立てやすくなる。さらに、通常のGANでよくみられる学習失敗に結びつく現象*2も大幅に低減できた。

応用可能性

 研究チームは新技術をWGAN(ワッサースタインGAN)と名付けた。GANは画像や動画の生成をはじめ幅広い応用が期待されている分野であり、WGANはその学習を円滑にできる技術として有望視される。

 

*1:WassersteinまたはEM(Earth Mover) Distance

*2:具体的にはmode collapse

スタンフォード大:映像から“次の場面”を予測、強化学習と深層学習を活用

 米スタンフォード大学と台湾の国立清華大学は、映像に映っている内容から次の場面を予測できる技術を開発した。強化学習の一手法である「逆強化学習*1」を応用し、正解となる映像を模擬できるように学習する。連続的に変化し、かつ複雑な*2映像データを扱うための工夫として深層学習も組み合わせた。動画の登場人物が次にとる行動を予測する実験などで従来技術の精度を上回った。

論文

 Visual Forecasting by Imitating Dynamics in Natural Sequences, Zeng et al., arXiv:1708.05827, Aug 2017

研究の背景

 映像から次の場面を予測する技術は、自動運転車の事故防止システムやロボットの行動制御など向けに開発が進んでいる。ただ従来技術では、ごく近接した場面しか予測できなかったり、用途ごとに注目すべきポイントを手作業で設計したりする必要があるなど課題が残っていた。

今回のポイント

 今回の技術は、与えられた映像のピクセルデータのみから、次に出現しそうな場面を予測できる。具体的に利用するのは、逆強化学習と深層学習の2つの技術だ。

 一般に機械学習や強化学習でコンピューターに適切な行動をさせるには、現時点での状態や行動の良さを判定する数値基準*3が必要になる。だが、映像の内容を予測するタスクでは、そもそも数値基準を正しく設計するのが難しい。そこで逆強化学習では、正解となる実際の映像データをもとに、そのような映像を実現する背景にある数値基準を復元する*4

 映像の予測では、取りうる状態や行動の数が多く、しかも連続的になる。既存の逆強化学習技術は、こうした複雑な問題を扱うのが困難だった。研究チームは、生の映像データを「畳み込みニューラルネットワーク(CNN)」と呼ぶ深層学習技術で変換した上で逆強化学習を施した。これにより、計算効率を高めて精度の良い予測を実現できた。

 新手法を利用し、映像中で次に現れると予測される画像を生成したり、動画に映っている人物が1秒後にとる行動を予測したりする実験を試みた。その結果、「握手をする」「ハグをする」などの人物の行動を高精度で的中できたほか、従来技術よりも長いタイムスパンでストーリー展開を予測できることが分かった。

応用可能性

 今回の手法は、映像のピクセルデータから直接予測が可能で、特定の用途ごとに人間が手作業で細かな調整を施す必要がない。ロボット関連の分野で広く応用できそうだ。 

*1:Inverse Reinforcement Learning

*2:次元数が大きいという意味

*3:コスト関数

*4:具体的には、(1)正解の映像データと生成した模擬データを最もうまく区別できるようにコスト関数を更新した後、(2)現状のコストを最小化するように方策を更新する——という2つのステップを繰り返して学習する。コスト関数を識別器、方策を生成器と見立ると、GANに類似した手法と言える。この方法を採用すると、膨大な数の状態や行動をつぶさに調べる必要がなくなる

SKテレコム:異なる「モノ」の対応関係を自動で発見、GAN応用した画像生成技術

 韓国のSKテレコムは、2種類の異なるモノの間にある対応関係を自動的に発見できる画像生成技術を開発した。例えば男性と女性の顔画像データを大量に使って学習すれば、ある男性の顔を表情やポーズを保ったまま女性の顔に変換できる。深層学習の一手法であるGAN(敵対的生成ネットワーク)を利用して実現した。

論文

 Learning to Discover Cross-Domain Relations with Generative Adversarial Networks, Kim et al., arXiv:1703.05192, May 2017

研究の背景

 AとBという2種類のモノや概念が与えられたとき、人間はその間にある対応関係を自然と見つけられる。英語の文章に対応するフランス語の文章を探したり、ズボンのスタイルに合ったジャケットを選んだりするのは比較的容易だ。

 一方、同様の作業を機械で実現するのは簡単ではない。従来の研究は、AとBの対応関係があらかじめラベル付けされた教師データで学習するのが主流だった。だが、Aと対応するBのデータがない場合や、Aに対応しうるBの候補が複数ある場合など課題が多く、精度を高めにくかった。

今回のポイント

 SKテレコムは今回、ラベル付けされていない異なる2種類のモノの画像から自動的に対応関係を発見する技術を開発。新技術を「DiscoGAN」と名づけた。

 DiscoGANの中核となるのは、GANと呼ばれる深層学習技術だ。GANは「生成器*1」と「識別器*2」という2種類のニューラルネットワーク(コンピューター上に作った仮想的な神経回路網)を競わせるように学習することで、本物と見間違うような架空の画像を生成できる。

 研究チームは、2つのGANを組み合わせた独自のネットワークを考案。Aという種類のモノの画像を入力すると、それを種類Bのモノに正しく対応づけたうえで、実際に種類Bのモノのように見える画像を生成できるようにした。

 新技術を使い、人の顔写真の構図などを変えずに性別や髪の色など特定の1つの特徴だけを変更したり、ハンドバッグの画像からスタイル(柄)の一致する靴の画像を生成したりする実験に成功した。

応用可能性

 今回の研究は画像間の対応関係だけを対象としていたが、将来的には文章と画像など異なる種類のデータを利用した研究も検討するという。

*1:generator

*2:discriminator

Google:文章から音声を直接合成、人手かけずより自然に

 Goolgeは深層学習を利用し、文章から高品質の音声を生成する新技術を開発した。文章を構成する文字列から直接音声を合成する*1手法で、人間が聴いたときに感じる「自然さ」で商用の技術を上回った。従来技術で欠かせなかった人手による細かい調整作業を省けるため、多様なデータを使って効率的かつ精度の高い学習ができる利点がある。

論文

 Tacotron:Towards End-to-end Speech Synthesis, Wang et al., arXiv:1703.10135, Apr 2017

研究の背景

 一般に音声合成技術は、入力となる文章を解析した後、音響の特徴を推定し、その後に出力の波形を合成するといった複数の手順を踏む必要がある。各段階で専門家の知識に基づく細かい設計作業を要するため、学習の手間がかかるうえ、誤差が複雑にからみ合って精度が落ちてしまう課題があった。

今回のポイント

   Googleは今回、ニューラルネットワーク(コンピューター内に作った仮想的な神経回路網)を利用し、文字を入力するだけで周波数や振幅といった音声の構成要素*2を直接出力できるシステムを開発した。

 具体的には、ある系列データを別の系列データに変換する「SEQ2SEQ」と呼ぶネットワークに独自の改良を加えた。系列から重要な特徴をうまく抽出するためのネットワーク*3を新たに追加したほか、データの出力方法*4を工夫して学習の効率を高めた。そのうえでニューラルネットワークからの出力を波形に変換*5して音声を合成した。

 実際に英語の音声を生成し、ネイティブスピーカーに自然さを評価してもらったところ、Googleが過去に開発した商用レベルの技術を上回った。研究チームは開発したシステムを「Tacotron」と命名した。

応用可能性

 今後、ニューラルネットワークの構造や波形の合成技術などに改良を加えてさらに性能を高める方針。

*1:end-to-end

*2:スペクトログラム

*3:CNN、higway network、Bidirectional GRUで構成する

*4:正確には学習のターゲット

*5:Griffin-Limを利用

OpenAI:強化学習に有望な"新"解法、並列化で学習高速に

 米非営利団体のOpenAIはロボット制御などに使う強化学習の手法として、「進化戦略*1」と呼ぶアルゴリズムが有望であることを明らかにした。従来の一般的手法に比べて多数のCPU(中央演算処理装置)を利用した並列処理がしやすく、短時間で学習できる。ヒューマノイドロボットのシミュレーションやビデオゲームといった複雑なタスクで進化戦略の利点を実証した。

論文

 Evolution Strategies as a Scalable Alternative to Reinforcement Learning, Salimans et al., arXiv:1703.03864, 10 Mar 2017

研究の背景

 強化学習は周囲の情報が十分に得られていない環境下で、行動の主体となる「エージェント」に複雑なタスクを実現させるためのAI(人工知能)技術だ。近年、ビデオゲーム囲碁、ロボット制御などの分野で成功を収めてきた。

 強化学習の目的は、ある状況においてエージェントが選ぶ行動*2を最適化することにある。従来は最適化の手法として、主に「Q学習*3」や「方策勾配法*4」といったアルゴリズムが使われてきた。

今回のポイント

 研究チームは今回、Q学習や方策勾配法に代わる学習手法として「進化戦略」を調査した。進化戦略は生物の進化に着想を得たアルゴリズムで、1970年代に提唱された。ある関数を最適化する場合、その関数に影響を与える変数に遺伝子の突然変異に似た「ノイズ」を加え、最も良い結果に結びついたノイズを基に計算を繰り返していく。

 調査の結果、進化戦略は非常に複雑な強化学習タスクに対しても、従来手法に匹敵する性能を発揮することが分かった。特に、多数のCPUを使った並列計算が得意な点が最大の強みだ。例えば、3Dのヒューマノイドロボットに歩行を学ばせるシミュレーション*5では、1,440個のCPUで分散処理することで、わずか10分で学習に成功した。学習にかかる時間は従来の約100分の1になった。

応用可能性

 進化戦略には、並列化の他にも、複雑なタスクに適用しやすいなどの利点が複数ある。OpenAIでは今後、最先端の強化学習で進化戦略の応用を検討していくという。

*1:Evolution Strategies

*2:方策

*3:Q-learning

*4:Policy Gradient

*5:MuJoCoを利用

コーネル大とAdobe:「写真らしさ」保ち画風変換、ゆがみ解消でリアルに

 米コーネル大学Adobeの研究チームは、写真の構図とリアルさを保ったまま、別画像のような雰囲気に変える技術を開発した。深層学習による画風(スタイル)変換*1で従来課題となっていた余計なゆがみや変換ミスを低減した。写真らしさはそのままで昼夜や季節を変えたり、画家の独特なタッチを適用したりできる。

論文

 Deep Photo Style Transfer, Luan et al., arXiv:1703.07511, Mar 2017

研究の背景

 深層学習によるスタイル変換はある画像に、別の絵や写真などの「参照画像」の画風を移植できる技術だ。画像認識に使われる「CNN(畳み込みニューラルネットワーク)」と呼ぶ技術を利用し、元画像との構図の違いと、参照画像とのスタイルの違い*2が同時に小さくなるような画像を新たに生成する。

 ただ従来の手法は、写真のリアルさを維持したままスタイル変換を施すのが難しいという課題があった。仮に元の画像と参照画像がどちらも写真の場合でも、変換後に生成される画像は直線部分が波打つなど絵画のようなゆがみを生じてしまう。

今回のポイント

 コーネル大とAdobeは、深層学習を実行する際の条件を工夫して問題を解決した。具体的には、変換後の画像が元画像の回転・拡大縮小・平行移動から大きく乖離しないように制約を加えた*3

 さらに、元画像と参照画像で意味合いの似た領域同士に限定して画風を移植できるような制約条件も追加した。これにより、例えば元画像中の建物部分に参照画像中の空(そら)部分のスタイルが誤って適用されるのを防ぐことができる。

 新手法で変換した画像を人間の評価者にスコアづけしてもらったところ、「写真らしさ」と「スタイル変換の忠実さ」の両方で従来技術を上回った。

応用可能性

 今回の技術は写真に写った風景の時間帯、天候、季節などを自由自在に変換することができ、幅広い分野で応用が期待される。

*1:Style Transfer

*2:Gram Matrixを使って評価する

*3:画像変換が局所的にアフィン変換となるようにする

Facebook:機械翻訳を10倍高速に、「CNN」採用で計算並列化

  Facebook AI Researchは、深層学習による機械翻訳を大幅に高速化できる手法を開発した。自然言語処理で一般的に使われるRNN(再帰ニューラルネットワーク)の代わりに、画像認識などで主流のCNN(畳み込みニューラルネットワーク)を利用する。複数の計算を並列して処理できるため、従来より約10倍の速度かつ高精度で翻訳文の生成が可能になる。

論文

 Convolutional Sequence to Sequence Learning, Gehring et al., arXiv:1705.03122, Jul 2017

研究の背景

 深層学習を使った機械翻訳や文章要約のシステムは、ある文章をニューラルネットワーク(コンピューター内に仮想的に作った神経回路網)に入力すると、別の文章に自動的に変換して出力する。入力文を読み込んで処理*1したり、出力文を生成*2したりするのには通常、RNNというタイプのニューラルネットワークが使われる。ただ、RNNは文章中に含まれる単語を1つずつ順番に処理するため、計算が遅くなる課題があった。

今回のポイント

 Facebookは今回、RNNを使わず、CNNという別タイプのニューラルネットワークで文章の変換や出力ができる仕組みを考案した。CNNは主に画像に写った物体の認識などに使われており、複数の処理を同時に実行しやすい特徴がある。研究チームはこの強みを生かし、翻訳や要約に不可欠な文脈の把握を効率的に実行できるようにした。入力文の語順に関する情報も利用する*3などの工夫も加えた。

 新手法は、英語からドイツ語、英語からフランス語への翻訳精度でGoogleなどの性能を上回った。未知の文章を翻訳するのにかかる時間は約10倍短くできた。

応用可能性

 今回の手法は、文章の要約など自然言語処理を利用する他の応用分野でも、効率よく精度の高い結果を得るのに役立つ可能性がある。

*1:Decoderの役割

*2:Encoderの役割

*3:Attentionで利用する