OpenAI：強化学習に有望な"新"解法、並列化で学習高速に - AIの最新論文を数式ゼロで要約するブログ

　米非営利団体のOpenAIはロボット制御などに使う強化学習の手法として、「進化戦略*1」と呼ぶアルゴリズムが有望であることを明らかにした。従来の一般的手法に比べて多数のCPU（中央演算処理装置）を利用した並列処理がしやすく、短時間で学習できる。ヒューマノイドロボットのシミュレーションやビデオゲームといった複雑なタスクで進化戦略の利点を実証した。

論文

　Evolution Strategies as a Scalable Alternative to Reinforcement Learning, Salimans et al.,　arXiv:1703.03864, 10 Mar 2017

研究の背景

　強化学習は周囲の情報が十分に得られていない環境下で、行動の主体となる「エージェント」に複雑なタスクを実現させるためのAI（人工知能）技術だ。近年、ビデオゲームや囲碁、ロボット制御などの分野で成功を収めてきた。

　強化学習の目的は、ある状況においてエージェントが選ぶ行動*2を最適化することにある。従来は最適化の手法として、主に「Q学習*3」や「方策勾配法*4」といったアルゴリズムが使われてきた。

今回のポイント

　研究チームは今回、Q学習や方策勾配法に代わる学習手法として「進化戦略」を調査した。進化戦略は生物の進化に着想を得たアルゴリズムで、1970年代に提唱された。ある関数を最適化する場合、その関数に影響を与える変数に遺伝子の突然変異に似た「ノイズ」を加え、最も良い結果に結びついたノイズを基に計算を繰り返していく。

　調査の結果、進化戦略は非常に複雑な強化学習タスクに対しても、従来手法に匹敵する性能を発揮することが分かった。特に、多数のCPUを使った並列計算が得意な点が最大の強みだ。例えば、3Dのヒューマノイドロボットに歩行を学ばせるシミュレーション*5では、1,440個のCPUで分散処理することで、わずか10分で学習に成功した。学習にかかる時間は従来の約100分の1になった。

応用可能性

　進化戦略には、並列化の他にも、複雑なタスクに適用しやすいなどの利点が複数ある。OpenAIでは今後、最先端の強化学習で進化戦略の応用を検討していくという。

*1:Evolution Strategies

*2:方策

*3:Q-learning

*4:Policy Gradient

*5:MuJoCoを利用