神野さんに言われました。

読者です 読者をやめる 読者になる 読者になる

神野さんに言われました。

AIの勉強をしています @sesenosannko

VC Based on MLE of Spectral Parameter Trajectoryを読む②

続きです。
今回は3章の提案手法のところを読みました。
論文のメインですね。
それ以降は手法の評価なので、重要だとは思いますがとりあえず今の所はここまでにしておきます。
いろいろな手法を読みたいので。


sesenosannko.hatenablog.com

Outline


Abstract
1. Introduction
2. Conventional GMM-Based Mapping ⇦前回はここまでです
3. Proposed Spectral Conversion ⇦今回はここまでです
4. Experimental Evaluations ⇦ここからは面倒なので保留です
5. Conclusions

3. Proposed Spectral Conversion


提案手法では、
 x = [x_1^T, x_2^T, \cdots, x_t^T, \cdots , x_T^T]^T
 y = [y_1^T, y_2^T, \cdots, y_t^T, \cdots , y_T^T]^T
と置いて
 \hat{y} = f(x)
のようにしてマッピング関数を適用します。

提案手法は以下の2点に重点が置かれています。
1. フレーム間の特徴量の相互関係
2. 系列内変動を考慮した変換

A. Conversion considering dynamic features


提案手法では以下のように静的特徴量と動的特徴量を並べた2D次元の特徴量ベクトルを用います。

 X_t = [x_t^T, \Delta x_t^T]^T
 Y_t = [y_t^T, \Delta y_t^T]^T

また、以下のようにX、Yを定義します。

 X = [X_1^T, X_2^T, \cdot, X_t^T, \cdots , X_T^T]^T
 Y = [Y_1^T, Y2^T, \cdots, Y_t^T, \cdots , Y_T^T]^T

ここで Z_t = [X_t^T, Y_t^T]^Tと置いて、従来の手法と同様の訓練手法を適用する。


1) Likelihood function


(19)のように条件付き確率をGMMでモデリングして尤度関数を定める。


2) MLE of parameter trajectory


変換後の特徴量ベクトルは以下のように最尤推定で求められる(24)。

 \hat{y}  = argmax P \left(Y|X, \Lambda^{(Z)} \right)

また、Y(静的特徴量と動的特徴量)とy(静的特徴量)の関係は線形変換で求められる。
 \Delta y_t = -0.5 \times y_{t-1} + 0.5 \times y_{t+1}となっている(fig. 4)。

(24)式を解く方法として、この論文では2つの手法を紹介している。
また詳しく読む時がくると思うので飛ばします。

B. Conversion considering GV


統計的モデルにおいて系列内変動は目標と大きく異なる結果をもたらす場合がある。
本章では、最適化問題において直接考慮することによって精度の向上をもたらす手法を示す。


1) Globali variance


ターゲットの系列内変動は下式(47)のように表されます。

 v(y) = [v(1), v(2), \cdots, v(d), \cdots, v(D)]^T

それぞれのv(d)は各次元の特徴量の時間軸における分散を表しています。
原文式(45)〜(47)を見ると良くわかります。
この論文では系列内変動は1発言ごとに計算されています。

系列内変動の減少はGMMを構成するそれぞれのガウス分布が、異なる文脈を含む音声から学習されることによって発生すると考えられています。
(つまり、汎化したモデルを学習したことによって細かい変動が殺され、過度に滑らかな音声が作られやすいということでしょう。)


2) Likelihood function


元の尤度関数(19)に単一ガウス分布 P\left) v(y)|\Lambda ^{(v)}\right) = N\left(v(y);\mu ^{(v)}, \Sigma ^{(vv)} \right)を掛け合わせたもの(48)を新たな尤度関数として用います。
 \Sigma ^{(v)}は元の尤度関数のパラメータである \Sigma ^{(Z)}とは独立して学習されます。
新しい尤度関数において、従来の尤度関数と加えた部分の重みは、従来の尤度関数の部分を定数 \omega乗することで制御されます。


3) MLE of parameter trajectory


アルゴリズムの説明なので省略します。


4) Effectiveness


系列内変動を考慮した手法を用いた結果、特定の次元やフレームでは改善が見られましたが、変化が見られない部分もあります。

GMMの構成ガウス分布数を増やすことも過度な平滑化の緩和につながりますが、この手法では過学習が起こりやすくなります。
系列内変動を考慮する提案手法の利点はパラメータ数の増加が小さいことです。




今回はここで終わり。

とりあえず近いうちに、いろいろな手法の論文を読みたいところです。
戸田さんのページにいろいろなpptがありました。
様々な手法が概観できそうなので、明日にでもさらっと見ます。

https://sites.google.com/site/tomokitoda/


あと、そもそもの音声信号処理の本を先輩からお勧めして頂いたので、これを最優先で読みたいと思います。

音声信号処理―音声の性質と聴覚の特性を考慮した信号処理

音声信号処理―音声の性質と聴覚の特性を考慮した信号処理