AIの最新論文を数式ゼロで要約するブログ

AI(機械学習/深層学習/強化学習など)の最新論文を数式や専門用語なしで解説するブログ

SKテレコム:異なる「モノ」の対応関係を自動で発見、GAN応用した画像生成技術

 韓国のSKテレコムは、2種類の異なるモノの間にある対応関係を自動的に発見できる画像生成技術を開発した。例えば男性と女性の顔画像データを大量に使って学習すれば、ある男性の顔を表情やポーズを保ったまま女性の顔に変換できる。深層学習の一手法であるGAN(敵対的生成ネットワーク)を利用して実現した。

論文

 Learning to Discover Cross-Domain Relations with Generative Adversarial Networks, Kim et al., arXiv:1703.05192, May 2017

研究の背景

 AとBという2種類のモノや概念が与えられたとき、人間はその間にある対応関係を自然と見つけられる。英語の文章に対応するフランス語の文章を探したり、ズボンのスタイルに合ったジャケットを選んだりするのは比較的容易だ。

 一方、同様の作業を機械で実現するのは簡単ではない。従来の研究は、AとBの対応関係があらかじめラベル付けされた教師データで学習するのが主流だった。だが、Aと対応するBのデータがない場合や、Aに対応しうるBの候補が複数ある場合など課題が多く、精度を高めにくかった。

今回のポイント

 SKテレコムは今回、ラベル付けされていない異なる2種類のモノの画像から自動的に対応関係を発見する技術を開発。新技術を「DiscoGAN」と名づけた。

 DiscoGANの中核となるのは、GANと呼ばれる深層学習技術だ。GANは「生成器*1」と「識別器*2」という2種類のニューラルネットワーク(コンピューター上に作った仮想的な神経回路網)を競わせるように学習することで、本物と見間違うような架空の画像を生成できる。

 研究チームは、2つのGANを組み合わせた独自のネットワークを考案。Aという種類のモノの画像を入力すると、それを種類Bのモノに正しく対応づけたうえで、実際に種類Bのモノのように見える画像を生成できるようにした。

 新技術を使い、人の顔写真の構図などを変えずに性別や髪の色など特定の1つの特徴だけを変更したり、ハンドバッグの画像からスタイル(柄)の一致する靴の画像を生成したりする実験に成功した。

応用可能性

 今回の研究は画像間の対応関係だけを対象としていたが、将来的には文章と画像など異なる種類のデータを利用した研究も検討するという。

*1:generator

*2:discriminator