神野さんに言われました。

読者です 読者をやめる 読者になる 読者になる

神野さんに言われました。

AIの勉強をしています @sesenosannko

VC Based on MLE of Spectral Parameter Trajectoryを読む①

ブログを見返すたびに集中して一つの分野をやれって言いたくなりますが、今回は統計的声質変換の論文を読みます

近年の統計的声質変換から見ると単純な手法だと思いますが、戸田智基教授の有名(たぶん)な「Voice Conversion Based on Maximum Likelihood Estimation of Spectral Parameter Trajectory」という論文です。

https://pdfs.semanticscholar.org/d419/ceb2753232373fd4ab9534b371e017cd9dc1.pdf

Outline


Abstract
1. Introduction
2. Conventional GMM-Based Mapping ⇦今回はここまでです
3. Proposed Spectral Conversion
4. Experimental Evaluations
5. Conclusions

Abstract


提案手法はGMMでソースとターゲットの特徴量の同時分布を表すことで声質変換を行うものです。

以前の手法ではフレームごとに最小二乗法でパラメータを求めています。
この手法によって音質が低下する要因は以下の二つ。
1つ目は、フレームごとの変換では不適切な動特性がもたらされること。
2つ目は、変換後のスペクトルが過度に滑らかになること。

提案手法ではスペクトルパラメータトラジェクトリの最尤推定により動的な特徴変化も音声変換に用いられています。
過度な平滑化に関しては、系列内変動*1を考慮することによって改善が見られています。

1. Introduction


声質変換には統計的な特徴量マッピングがしばしば用いられます。
このような手法は非言語的特徴量による変換が行われます。

声質変換への統計的なアプローチは1980年代後半から行われています。
以来、ハードクラスタ、ソフトクラスタを用いたマッピングによる手法が提案されてきました。
そして、コードブック、線形回帰、補間法、ニューラルネットワーク、GMMなどを用いた手法があります。

マッピングを用いた手法は効果的ではありますが精度は不十分です。
前述のように、フレームごとの変換によって不適切な動特性がもたらされる、変換後のスペクトルが過度に平滑化されるなどの要因によって精度が下がってしいます。


提案手法ではスペクトルパラメータトラジェクトリの最尤推定に基づいた声質変換を行っています。
適切なスペクトルの運動をもたらすために、HMMを用いた音声合成で用いられる特徴量のフレームごとの相互関係を動的特徴量を用いたパラメータ生成アルゴリズムを、GMMに基づいたマッピングに適用することを考えます。

この手法により動特徴においても適切な値となるスペクトル配列を推定することができます。
さらに、系列内変動を特徴量をつかむ特性であると考えることで、過度な平滑化についての解決を試みています。
このアイデアは統計的変換によって失われる情報を効果的にモデリングしています。

2. Conventional GMM-Based Mapping


以降、式を書くのは面倒なので括弧で式を示します。原文を参照してください。

A. Probability density function


tフレーム目のD次元のソースとターゲットのベクトルを x_t^T,  y_t^Tとして、結合ベクトル [ x_t^T, y_t^T ]を z_t^Tと置いて、 z_t^Tを確率変数とするGMMを考えます(6)。

提案手法ではGMMを構成するそれぞれのガウス分布の共分散行列について、xx、xy、yx、yyの4つに分割した行列はそれぞれ対角行列としている。

GMMはEMアルゴリズムを用いて学習されます。
また、結合ベクトルは動的時間伸縮法(Dynamic Time Warping, DTW)を用いて生成されます。
この手法は最小二乗法を用いた手法に比べて頑健性が高く、特に訓練データが小さい場合にはその差が顕著になります。

B. Mapping function


同時確率がGMMならば条件付き確率もGMMで与えられます。
PRMLの2.3章の話と同じことでしょう。

ターゲットとなる特徴ベクトルは y_t x_tに関する条件付き期待値で与えられます(13)。
この手法はVQに比べて高い精度であることが示されています。

C. Problems


GMMに基づくマッピング関数を用いた手法は様々な問題を含みます。
この論文では2つの主要な問題に焦点をおきます。

1点目は時間に対して独立したマッピングであることです。
フレーム間の相互関係が無視されるため、狭い範囲でのスペクトルの時間変化に差が出ることがあります。

2点目は過度な平滑化が起こることです。
統計的なモデリングでは、しばしばスペクトルの詳細な構造が失われます。
この変化によって品質の低下が起こります。



今回はここまでです。
後半も早いうちに読みたい。

*1:一発話単位など,パラメータ時系列全体 における静的特徴量の分散のことである。 ci.nii.ac.jp