読者です 読者をやめる 読者になる 読者になる

神野さんに言われました。

AIの勉強をしています @sesenosannko

情報幾何の概要と入門書の紹介

こんにちは。さんこです。

大学1年目があっという間に終わりました。この春休みは情報幾何とTDAをやることにしていて、情報幾何が一段楽したのでまとめておきます。一段楽と言っても下に紹介した本すら読みきっておらず、疲れたので一区切りをつけたいだけですが。

大学1年生の数学知識しか持ち合わせていない状態から読んだ基礎数学書から紹介するので、大学1年生もしくは非数学科でこの分野に興味のある方の参考になればと思います。TDAに関しては、また別に記事を書こうと思っています。

微分幾何を含めて完全な初学者なので、内容はあまり信じないでください。また、誤りがあればご指摘いただけるとありがたいです。


情報幾何とは

情報幾何の基本的なアイディアと、なぜ微分幾何が必要なのかという点について少し書いておきます。主に「情報幾何学の新展開」10.1の内容などを曖昧にさせたものです。用語を含めて厳密ではないので、雰囲気を感じる程度だと思ってください。

情報幾何とは、確率理論を幾何的に捉える学問です。データから(一変量)ガウス分布を推定する問題を例に取って、幾何的に捉えるという考え方を紹介します。

まず、ガウス分布

N\left( x | \mu, \sigma ^2 \right) = \frac{1}{\left( 2 \pi \sigma ^2 \right) ^{1 / 2} }exp\{ \frac{1}{2 \sigma ^2} \left( x- \mu \right) ^2 \}

と表されるので平均 \muと分散 \sigma ^2が決まれば一つに定まります。ここで、平均 \muと分散 \sigma ^2の座標を考えると、この座標上の1点\left( \mu , \sigma ^2 \right)は平均 \mu・分散 \sigma ^2ガウス分布を表しており、この座標は全てのガウス分布を表すと考えることができます*1。また、ある面上にこの座標を与えると、その面上の1点も同様に1つのガウス分布を表すと考えることができます。これで、ガウス分布を面という幾何の道具で表したことになります。

面上の点がガウス分布を表すと考えると、あるデータからガウス分布(平均 \muと分散 \sigma ^2)を推定する問題は、あるデータに対してその面上の1つの点を決める問題と考えることができます。ここで、データは幾何的にどのように表せるかを考えます。データがガウス分布から生成されていたとしても、近似をしない、データのそのままの確率分布はガウス分布とぴったり一致するわけではありません。データのそのままの確率分布とはヒストグラムのようなもののことです。データ数が多ければ細かく分割したヒストグラムガウス分布に近づきますが、完全にガウス分布になるわけでありません。つまり、データのそのままの確率分布は、上で考えた全てのガウス分布を表す面上の点ではないということです。

ここで、全てのガウス分布を表す面と同じように、あらゆる確率分布を表す空間が存在すると考えてみます。どのような空間なのかという点は置いておいて、どんな確率分布でもこの空間のある1点として表されると考えます。このとき、データのそのままの確率分布もこの空間内のある1点になります。また、全てのガウス分布を表す面も当然あらゆる確率分布を表す空間に含まれます。

ここまでで、データの分布と全てのガウス分布を点と面として幾何的に表すことができました。次に推定を考えましょう。直感的には、データのそのままの分布を表す点に最も近いガウス分布が良い推定と言えそうです。ガウス分布は全てのガウス分布を表す面上の点なので、(この面が平らであれば)下図のようにデータの分布を表す点から直線を垂直に下ろした面上の点が推定されるガウス分布を表す点と考えられます。


f:id:sesenosannko:20170218214808j:plain


なんとなく納得できるような気がしてもらえると嬉しいですが、全ての確率分布を表す空間とは何なのか、そしてその空間における距離や直線や直角とは何なのかが良く分かりません。例えば、全てのガウス分布を表す座標だけを考えたとしても、 \sqrt{ \left( \mu' - \mu \right) ^2 - \left( \sigma' ^2 - \sigma ^2 \right) ^2 } という値は距離のように見えますが、この値は2点の確率分布の関係を良く表しているとは言えません。確率分布を表す空間の距離や直線や直角といったような値を考えるために、情報幾何は微分幾何学の考え方を借りることになります。

情報幾何では、微分幾何学の中でもリーマン幾何学を応用します。リーマン幾何学の説明は上手くできないのでしませんが、高校までの幾何で扱ってきたユークリッド空間ではない空間でも距離や微分などを定義しようという試みがなされています。情報幾何では確率分布を表す空間にリーマン幾何学の考え方を利用するということです。

面白い点としては、一般的に距離や微分などは一つに定まるとは限りません。考えている空間の特徴と、距離は対称で正であるべき、微分ライプニッツ則に従うべきなどの制限に従っており、それぞれの定義同士の整合性が取れている範囲の中で自由に定義することができます。情報幾何では、確率理論を説明するのに適した定義をすることで幾何学と確率理論が繋げられています。


書籍紹介

下記のように現代幾何等の基礎知識がない人に向けた情報幾何の入門書も出版されており、 「微分幾何学の基礎」は微分幾何の基礎から書かれているので、 丁寧に読んでいけば微分幾何を知らなくてもこの本だけで理解ができるかもしれないです。

しかし、 1月の僕にはそれだけでは基礎の微分幾何の部分がそもそも理解できませんでした。 2月初頭より位相空間論の基礎から勉強しなおしたので、僕が読んだ本をまとめておきます。

この記事の目標は下記書籍です。 これらは微分幾何の基礎から書かれている入門書ですが、両方とも機械学習への適用についても触れられています。

情報幾何学の基礎 (数理情報科学シリーズ)

情報幾何学の基礎 (数理情報科学シリーズ)


集合と位相

集合・位相入門

集合・位相入門

集合・位相入門

集合と位相の入門教科書的な書籍です。 類書が多数出版されていますが、同様の書籍ならどれでも良いと思います。

僕は面倒だったので4章と5章を軽く読み流した程度です。 その程度でも大きく困ることはありませんでしたが、 以降の書籍で定義などが気になった際に参照することが多々ありました。


多様体

多様体の基礎

多様体の基礎 (基礎数学5)

多様体の基礎 (基礎数学5)

多様体の入門書として有名な書籍らしいです。

当初はどこが必要な知識なのか分からなかったので3章まで読んで終えてしまいましたが、 この書籍の内容は全て微分幾何と直接的に関わっているので完読すべきでした。 但し、 「曲線と曲面の微分幾何」と内容が被るところが多くあり、 「曲線と曲面の微分幾何」の方が初めて読むにはとっつきやすい印象がありました。 「多様体の基礎」の方が数学書然とした書籍なので、 「曲線と曲面の微分幾何」を先に読んだ上で全て読むというのも良いと思います。


微分幾何

曲線と曲面の微分幾何

曲線と曲面の微分幾何

曲線と曲面の微分幾何

タイトルの通り、曲線及び曲面の微分幾何を取り扱った書籍です。 高校数学の感覚で読めるので導入として良い本だと思います。 n次元多様体への一般化はされていないので、 あくまで入門書という位置付けなのでしょう。

情報幾何で使用されるのは主に「3. 曲面上の幾何」に記されている内容です。 3章以降は読み流しました。

内容としては情報幾何への適用に限定して考えても明らかに不足ですが、 この書籍の内容を理解すれば「情報幾何学の基礎」を読み進めることができると思います。


情報幾何

冒頭で紹介した2冊の情報幾何の入門書です。

情報幾何学の基礎

情報幾何学の基礎 (数理情報科学シリーズ)

情報幾何学の基礎 (数理情報科学シリーズ)

こちらを先に読むことをお勧めします。 こちらの方が数学書らしく定理と証明を積み重ねていって情報幾何学にたどり着くという書き方がされています。 適用については統計物理や統計推論について書かれてはいますが、 内容自体が少ないですし説明も駆け足の印象です。 適用については「情報幾何学の新展開」の方が分かりやすいと思います。

はじめてこの書籍を読んだときには意味が分からない部分が多くありましたが、 基礎的な微分幾何を学んだ後に読んで非常にわかりやすい書籍だということが分かりました。 前書きに「大学1年時に学ぶ数学以上の予備知識をできるだけ仮定しない」と書いてあり、 確かにこの書籍だけで理解できる人もいるだろうと思います。 とはいえ基本的な部分はかなりコンパクトに書かれているので、 僕としては入門書を経ることをお勧めします。

情報幾何学の新展開

機械学習への応用が豊富です。 基礎の部分は一冊目としては読みづらいだろうと思いますが、 常に情報幾何への適用が意識されている印象を受けるので「情報幾何学の基礎」の後に読むとより理解が深まると思います。 こちらの方が良い説明だと感じる部分も多くありました。

正直に言うと、応用の部分は僕には難しくてまだあまり読めていません。いずれ時間をかけて理解していきたいと思います。


おわりに

とりあえず情報幾何が何なのかということを知りたかったので、基礎を蔑ろにして駆け足で学んでみました。理解できずに読み飛ばした部分もかなり多かったですが、面白さを垣間見ることはできたかなと思います。特に、双対接続の微分幾何はとても美しいので是非読んでみてほしいです。情報幾何によって機械学習の理論が大きく進んだという訳ではないようですが、全く関係ないように見える幾何学によって説明がされるというのは興味深いですね。僕は疲れたのでしばらく幾何学はやりたくないです。

*1:実際には別の座標を取って議論されますが、分かりやすさのためここでは平均 \muと分散 \sigma ^2の座標を考えます