神野さんに言われました。

読者です 読者をやめる 読者になる 読者になる

神野さんに言われました。

AIの勉強をしています @sesenosannko

深層強化学習について理解する②マルコフ決定過程のその前に

続きです。

sesenosannko.hatenablog.com


マルコフ性っていうのは嫌っていうくらい聞く言葉ですよね。

確認という意味で、マルコフ性から一つ一つ書いていきます。
マルコフ決定過程のその前に、という名前通り今回はマルコフ決定過程に達しません。
書いてたら疲れました。
想定以上にとっちらかった記事になりました。
あと、texがすごく重いですね。
これ何とかしたいな。

今回より参考にしている文献は最後に書くことにしました。


1.マルコフ性
確率論における確率過程の持つ特性の一種で、その過程の将来状態の条件付き確率分布が、現在状態のみに依存し、過去のいかなる状態にも依存しない特性を持つことをいう[1]。
つまり、t+1の時間の状態がtの状態のみに依存するということですね。

なんとなく分かると思いますが、そもそも確率過程の性質と言っているので、確率過程がなんなのかということも含めて次項に書きます。


2.マルコフ過程
まず、そもそも確率過程とは何か。
確率変数 Xがパラメタ t \in T に依存しているとき、どのようにパラメタを指定しても X(t_1), \cdots ,X(t_n)がある結合分布に従っているとき、 X(t)を確率過程(stochastic process)と呼ぶ[2]。


結合分布とかについて書いたんですが、結局マルコフ過程を見てしまうのが一番早く理解できる気がしたので、もし面倒だったら下の方の「ここで(やっと)マルコフ過程について見てみましょう。」まで飛んでください。


それでは、まず結合分布から。
結合分布は同時分布のことですね。
[3]より下式の P_{X, Y}を同時分布(結合分布)という。
なお、確率空間を( \Omega F P)として、 X Yはこの確率空間上の確率変数とします。ここで二つの確率変数を組として考えた( X Y)を2次元確率ベクトルというのことです。

 P_{X, Y} \left( A \times B \right) = P \{ \omega \in \Omega : X(\omega) \in A, Y(\omega) \in B \} = P \left( X \in A, Y \in B \right)


確率空間とは。
長くなるので確率空間については別の記事にまとめました。

sesenosannko.hatenablog.com


さて、同時分布についてですが、上の式を見たところで僕にはよくわかりません。
[4]は離散かつ独立な事象についてなので一般的な理解はできないですが、分かりやすいですね。
複数の確率変数がとる値の「組」に対する確率が同時確率となります。
なお、それぞれの確率変数の事象の確率を周辺確率といいます。

(以下5/27更新)
分かりやすい確率の基礎の本を見つけました。
[5]が非常に分かりやすいです。
まだ全部読めていないですが、これは購入したいくらい。
常に確率の基礎がわからない人なので、逐一これで確認をしたいと思います。
さて、この本によると、まず通常の確率分布関数というのは確率変数Xがx以下の値をとる確率を表します。
これに対して、結合確率分布とは確率変数Xがx以下の値をとり、かつYがy以下の確率をとる確率を表します。
ここで、このときyを∞ととると確率変数Xに対する通常の分布関数と一致し、これを周辺分布関数といいます。
単純明解ですね。
この本は初めに離散の確率について説明してから一般的な場合に拡張していくという書き方をしているので、非常に理解がしやすいと思います。


さて、確率過程に戻りたいと思います。
 X(t_1), \cdots ,X(t_n)がある結合分布に従っている、というのはどういう意味なのでしょうか。
[5]は「確率論のほとんどの応用には時間の経過とともにランダムに変化する量が含まれる。このようにランダムに変化する過程を確率過程と呼ぶ」という少し曖昧な表現をしています。

具体例として[5]にはランダムウォークという確率過程が書いてあります。
これは、ある粒子がある時刻nS_nに存在するときに時刻n+1には確率pS_n+1、確率qS_n-1に存在するというものです。
たとえば、この時に時刻n+1に5という場所に存在する確率は、明らかに時刻nの位置に関係していますよね。
ということで、ある結合分布に従うというのは、時間に依存する値についてある点の値についての確率が、他の複数の点による結合分布によって表されるという意味だと考えられます。




ここで(やっと)マルコフ過程について見てみましょう。
正直、これを見てしまうのが一番分かりやすいです。
[2]による定義ではマルコフ過程t_1t_2という2時点の過程の結合確率で全てのふるまいが記述される過程である。
ここで、条件付確率のあの公式を考えると、結合確率で表されるということは条件付確率で表されるというのと同義ですよね。
あのさ、これを最初に書いちゃうのが一番分かりやすいと思うんだけど・・・
複数点だとまた変わってくるんでしょうかね。
とりあえず、マルコフ過程は下の式が成り立ちます。

P\{X\left(t_{n+1}\right)|X\left(t_n\right)=x_n,\cdots,X\left(t_1\right)=x_1\}=P\{X\left(t_{n+1}\right)|X\left( t_n\right)=x_n\}

正直、確率過程とかそんなことは知らなくてもわかる話で、P\{X\left(t_{n+1}\right)がある値をとる確率がP\{X\left( t_n\right)だけに関係するっていうことですね。
これを厳密に書きたいがために確率論の基礎から読んだんですけど、正直マルコフ過程への理解度はあんまり変わらなかった。悔しい。
まぁいいのです。つまりこういうことです。


3.マルコフ連鎖
さて、マルコフ連鎖は何も難しいことは言っていないのでちょろっと書いておきます。
[2]よりP\{X\left(t + \tau)\right)|X\left(t)\right)=x_n\}マルコフ過程の状態遷移確率と言います。
これがtに依存しない時に時間的に一様な確率と言います。
先ほどのランダムウォークの例はまさにこれですよね。
この時に、時間的に一様な離散時間のマルコフ過程マルコフ連鎖と言います。
これはすごくよく使う学習モデルですね。



次の記事です

sesenosannko.hatenablog.com

これ深層強化学習まで行くの何年後になるんだ・・・・
このシリーズの最後に簡単なゲームをクリアするやつとか作れればいいですね(8年後くらいになりそう)



確率の基礎から読んで、すごく疲れたのになんか大した記事が書けていないのが悲しいです。
確率とはしばらく格闘することになりそうです。
あと、最近すごくPRMLが欲しいです。
あれ高いんだよなぁ・・・


[1]
マルコフ性 - Wikipedia

[2]
Amazon CAPTCHA

[3]
http://mcm-www.jwu.ac.jp/~konno/pdf/statga17a.pdf

[4]
同時確率分布

[5]
Amazon CAPTCHA