神野さんに言われました。

神野さんに言われました。

AIの勉強をしています @sesenosannko

Human-level control through deep reinforcement learningを読みました

そろそろQ-Networkを使って何か簡単なものを作ってみようと思ってるんですが(何回も言ってる)、すごく邪魔な期末試験のせいで少し間が空いてしまったので、内容を思い出すためにもnatureのDeepMindのAtariの論文を読もうと思います。

正直、トロント大学Atariの論文は読んだのでほとんどの内容は知っていることなのですが、ちょっと実装のところが読みたかったのと、あとは本当にリハビリ目的です。はい。

あと、この論文は短いとはいえ段落ごとに章題がついていないので少し読みづらいです。まぁresearch letterだから普通なのかな?

http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html



1. Introduction


現実の問題に対して強化学習を適用する場合には難しい問題に直面します。高次元の入力から効率的な環境表現を抽出する必要がありますし、それを用いて過去の経験を一般化して新しい状態に用いられるようにしなければなりません。

かつては強化学習は人間によって定められた特徴量が有効であったり、状態が低次元で全体が観測可能である場合などの限られたモデルでしか成功しませんでした。

この論文では、最近の向上したディープニューラルネットワークの学習技術を用いて、深層Qネットワーク(DQN)と呼ばれる手法を用いています。この手法では高次元の入力を用いてend-to-endで強化学習が行われます。

このエージェントをAtari 2600 gamesでテストしています。入力は画像のピクセルの値とゲームスコアのみです。

2. Deep Reinforcement Learning


強化学習及びQ学習の基本的な内容と、以前の記事に書いたexperience replayとiterative updateについての内容ですので省略します。

sesenosannko.hatenablog.com


3. Model Architecture


この論文のDQNの入力は84×84×4の画像で、3層の畳み込み層と2層の全結合層で構成される。また、それぞれの隠れ層の活性化関数はReLUとなっている。なお、このエージェントはε-グリーディ法(ε=0.05)を使用しています。

4. Evaluation


29のゲームで人間のエキスパートの75%以上のスコアを出しています。また、experience replay及びiterative updateの有効性も示されています。

加えて、DQNによって学習された表現の評価が行なわれています。t-SNEという次元圧縮法が用いられています。これは高次元のデータの可視化の際に用いられる手法だそうです。t-SNEによれば、似たような場面は似た状態であると判断されて近い大きさの価値が与えられていることがわかります。また、画像としては違いがある場合でも、たとえばインベーダーの終盤で自機を守る壁が残っている場合と残っていない場合などのスコアに与える影響が小さい違いの場合は、似ている状態だと判断されることがわかります。これによって、この実験のDQNによって構築された環境モデルは適切であると評価されています。

ブロック崩しのように幾つかのゲームでは最適な戦略と思われるような方策の学習に成功していますが、状態の変化によって異なる戦略が必要なゲームなどは未だに有効な学習が行えていません。