AIの最新論文を数式ゼロで要約するブログ

AI(機械学習/深層学習/強化学習など)の最新論文を数式や専門用語なしで解説するブログ

スタンフォード大:映像から“次の場面”を予測、強化学習と深層学習を活用

 米スタンフォード大学と台湾の国立清華大学は、映像に映っている内容から次の場面を予測できる技術を開発した。強化学習の一手法である「逆強化学習*1」を応用し、正解となる映像を模擬できるように学習する。連続的に変化し、かつ複雑な*2映像データを扱うための工夫として深層学習も組み合わせた。動画の登場人物が次にとる行動を予測する実験などで従来技術の精度を上回った。

論文

 Visual Forecasting by Imitating Dynamics in Natural Sequences, Zeng et al., arXiv:1708.05827, Aug 2017

研究の背景

 映像から次の場面を予測する技術は、自動運転車の事故防止システムやロボットの行動制御など向けに開発が進んでいる。ただ従来技術では、ごく近接した場面しか予測できなかったり、用途ごとに注目すべきポイントを手作業で設計したりする必要があるなど課題が残っていた。

今回のポイント

 今回の技術は、与えられた映像のピクセルデータのみから、次に出現しそうな場面を予測できる。具体的に利用するのは、逆強化学習と深層学習の2つの技術だ。

 一般に機械学習や強化学習でコンピューターに適切な行動をさせるには、現時点での状態や行動の良さを判定する数値基準*3が必要になる。だが、映像の内容を予測するタスクでは、そもそも数値基準を正しく設計するのが難しい。そこで逆強化学習では、正解となる実際の映像データをもとに、そのような映像を実現する背景にある数値基準を復元する*4

 映像の予測では、取りうる状態や行動の数が多く、しかも連続的になる。既存の逆強化学習技術は、こうした複雑な問題を扱うのが困難だった。研究チームは、生の映像データを「畳み込みニューラルネットワーク(CNN)」と呼ぶ深層学習技術で変換した上で逆強化学習を施した。これにより、計算効率を高めて精度の良い予測を実現できた。

 新手法を利用し、映像中で次に現れると予測される画像を生成したり、動画に映っている人物が1秒後にとる行動を予測したりする実験を試みた。その結果、「握手をする」「ハグをする」などの人物の行動を高精度で的中できたほか、従来技術よりも長いタイムスパンでストーリー展開を予測できることが分かった。

応用可能性

 今回の手法は、映像のピクセルデータから直接予測が可能で、特定の用途ごとに人間が手作業で細かな調整を施す必要がない。ロボット関連の分野で広く応用できそうだ。 

*1:Inverse Reinforcement Learning

*2:次元数が大きいという意味

*3:コスト関数

*4:具体的には、(1)正解の映像データと生成した模擬データを最もうまく区別できるようにコスト関数を更新した後、(2)現状のコストを最小化するように方策を更新する——という2つのステップを繰り返して学習する。コスト関数を識別器、方策を生成器と見立ると、GANに類似した手法と言える。この方法を採用すると、膨大な数の状態や行動をつぶさに調べる必要がなくなる