はじめまして、エンジニアの吉田岳人です。
今回は機会があって人工知能領域のトップカンファレンスであるICLR2018に参加してきたので、DeepX AIブログの記念すべき初めの投稿として参加の報告をさせていただきます!
報告は計4回に分けて行う予定です。
第1回にあたる今回の投稿では、ICLR2018(ハコ)の紹介に加えて、発表論文(ナカミ)の紹介に先立ち、特に、著者の研究領域である強化学習についてその研究トピックを整理します。
第2回以降では、研究発表の具体をいくつかのトピックに分けて報告する予定です。

\vspace{5px}

ICLR(ハコ)の紹介

ICLRとは

ICLRは、International Conference on Learning Representationsの略です。
その名の通り、表現学習(Learning Representations)に関する国際会議です。
ディープラーニングの黎明初期にあたる2013年から始まった比較的若い会議ですが、人工知能領域では、世界屈指の研究者が集うトップカンファレンスです。

ICLR2018

2018年開催の今回の会議は、6回目に当たり、カナダのバンクーバー開催でした。
近年、人工知能領域での研究はかなり活発になっており、
会議への投稿論文数は指数関数的に増大しているようです。

image

参加者数は、アメリカからの参加者が非常に多く、次いで開催国のカナダ、イギリスという順番になっていました。

また、採択された論文の著者の所属組織はGoogle やUCBerkeley、Stanford、Facebook、CMU等が多いようでした。

[http://webia.lip6.fr/~pajot/dataviz.htmlより引用]

研究テーマとしては、
今回、発表された論文は、VAEやGANなどの生成モデルを扱うものが非常に多かったです。
強化学習を扱うものも多く、逆強化学習や模倣学習の研究も多い印象にありました。

会場の様子

会場はこの右側にある建物です。船の形をした建物でお台場と雰囲気が似ている印象を受けます。
image

会場の入り口の様子。
image

2日目の午後にワークショップで発表する先輩エンジニアの冨山さん。
image

会場近くにはバンクーバーオリンピックの聖火がありました。
image

Invited Talk

会議期間中では、いくつか、著名な研究者によるInvited Talk(招待講演)がありました。
なかでも印象的だったので、最終日に行われた強化学習の再現性に関する招待講演です。
この講演は、Facebook AI ResearchのJoelle Pineauさんが「Reproducibility, Reusability, and Robustness in Deep Reinforcement Learning」という題目で行ったものです。

講演では、2つの内容が紹介されていました。

  • 強化学習の再現性に関する問題の指摘
  • 強化学習のアルゴリズムを競う囲碁の環境Elf OpenGoを作ったという紹介

1つ目は、強化学習の最先端の手法は、再現性が低いという指摘です。
これは、手法の性能評価に際して、評価に用いるタスクやハイパーパラメータ、乱数シード、実装の違いによって評価結果が大きく変化してしまうということがあるという深層強化学習研究全体の問題への指摘になります。
二つ目は、それを解決するために、Facebookが行っている取り組みについてです。
囲碁を題材にして、共通の評価プラットフォームを開発公開して、その上で研究者が評価し合うことで、フェアで、かつ、再現性がある形で手法の評価ができるようになり、より一層研究が加速されることを狙っています。
個人的には、囲碁のような離散状態行動空間のプラットフォームだけでなく、ロボット制御を見越した連続状態行動空間でも、さらには実機でもこのようなプラットフォームができるとより強化学習の研究が実社会応用を見据えたものになるのではないかと思いました。

\vspace{5px}

論文(ナカミ)の紹介の前に

第二回以降、ICLR2018で発表された強化学習に関連する論文を具体的に紹介していく予定です。
それに先立って、深層強化学習の研究領域を応用を意識した上で、簡単に整理したいと思います。

強化学習の実応用時の作業フロー

機械操作自動化に向けて、DNNによる制御モデルを強化学習により学習させて得る作業をイメージします。作業フローは、以下の流れのようになることが多いです。

  1. タスクの設計
  2. 方策の初期化
  3. 方策の学習

1つ目のタスク設計とは、自動化対象の機械や操作について、強化学習により報酬が改善し収束した時に目的の操作がえられるように、状態空間や行動空間、報酬関数を定義することをさします。実応用に際しては、強化学習による報酬改善が制御の改善に直結せず、また、報酬が改善しきったとしても、目的の制御が得られないこともあります。そうならないように、タスクをよく設計します。
2つ目の方策初期化は、学習の前に方策モデルを準備・初期化することを指します。しばしば、ランダム初期化されますが、実タスクにおける試行回数や安全性を鑑みれば、対象のタスクにある程度役立ちそうな形で事前学習させたいところです。
最後に、方策の学習があります。目的の制御の獲得を期待して、設計したタスク内で強化学習アルゴリズムにより制御モデルを学習させます。アルゴリズムによって、安定性や必要試行回数が異なります。

強化学習の課題の整理

機械制御の文脈での強化学習の実応用では、現実世界で制御方策を獲得することがゴールです。
強化学習の研究はまだまだソフトウェア領域のものが多いです。そして、シミュレータ等ソフトウェア領域での研究では、うまくいく事例もありますが、実機が絡んだ応用のシーンではまだまだ課題が多いのが実情です。
そこで、ソフトウェア領域の技術を実機に適用する際に起こる課題として、タスク設計と試行回数を題材に、以下に整理しました。

課題作業ブロック対象アプローチ打ち手
タスク設計が難しい場合ありタスク設計状態空間タスクを解くために必要十分な入力情報の選定実機検証(?)
行動空間再現性が高い形で行動空間を設計実機検証(?)
報酬関数シミュレータ活用
エキスパート軌道から報酬復元(?)
逆強化学習、模倣学習
試行回数を十分増やせず学習しきれない可能性あり方策初期化方策方策の事前学習転移学習、メタラーニング
方策学習更新法データを再利用オフポリシー手法
安定的な方策更新信頼領域法
取った行動の良し悪しのフィードバック頻度の増加探索効率化、
モデルベース強化学習、
カリキュラム生成、
模倣学習

こうして、整理した時に、おおまかな強化学習研究の傾向が見えまして、
去年開催のICLR2017では更新法の基礎分野に関する論文が多く発表されていましたが、ICLR2018では方策初期化を改善する論文が多くある印象を持ちました。

\vspace{5px}
今回の記事では、ICLR2018の概要と強化学習研究の整理について報告しました。
次回の記事では、ICLR2018にて発表された強化学習研究の中でも、特に、方策の転移に関する論文について紹介していこうと思います。

\vspace{10px}

著者紹介

吉田岳人
東京大学大学院情報理工学専攻修士2年。
大学院にて、強化学習のうち模倣学習を中心に研究を行う。
DeepXでは、研究領域の強化学習技術の産業応用を目指し、特に、機械自動化に向けた模倣学習の活用法の開発を行う。