神野さんに言われました。

神野さんに言われました。

AIの勉強をしています @sesenosannko

統計的声質変換

自分の声を水瀬いのりさんの声にする他対1声質変換

声質変換で自分の声を水瀬いのりさんの声に変換する手法の紹介と実装。

水瀬声質変換の日誌

思い出したように書き始めました。実際には3月15日あたりから音声分析ライブラリ周りを実装したりしました。 3月36日 SI-ASR部分の製作を継続。BLSTMは全く学習できなかった。おそらく実装にミスがあると思う。 ひとまず一方向のLSTMで学習をしてみる。1000×…

音声分析アプリを作った

こんにちは。先週の金曜日に音声分析アプリを作って、昨日今日でtkinterのアプリにしました。 そこまではよかったのですが、sptk等を使っていたことを完全に失念していたので、アプリ化するのが非常に面倒になったので諦めました。 今回で懲りたのと、神野さ…

フレームごとのGMM-based mappingによる声質変換

こんにちは。 個人的にはなかなか良い結果を得られたので書いておきます。https://www.cs.cmu.edu/~pmuthuku/mlsp_page/lectures/Toda_VC.pdf例によってこの論文なんですが、とりあえず2章の従来の方法というやつを試してみます。 この手法はフレームごとに…

VC Based on MLE of Spectral Parameter Trajectoryを読む②

続きです。 今回は3章の提案手法のところを読みました。 論文のメインですね。 それ以降は手法の評価なので、重要だとは思いますがとりあえず今の所はここまでにしておきます。 いろいろな手法を読みたいので。 sesenosannko.hatenablog.com Outline Abstrac…

VC Based on MLE of Spectral Parameter Trajectoryを読む①

ブログを見返すたびに集中して一つの分野をやれって言いたくなりますが、今回は統計的声質変換の論文を読みます近年の統計的声質変換から見ると単純な手法だと思いますが、戸田智基教授の有名(たぶん)な「Voice Conversion Based on Maximum Likelihood Es…

ソースフィルタモデルのソースってなんだ

ソースフィルタモデルのソースって、そもそもなんなのか。 tam5917.hatenablog.comこれによると 声帯音源の特徴は有声音と無声音で異なる。ただし有声音とは声帯の振動を伴う音声であり、無声音は声帯の振動を伴わない音声である。声帯の振動により発生する…

基本周波数の線形変換

https://sunpro.io/c89/pub/hiromu/hiromu.pdf これの4.3で変換したMFCCを音声データに戻す作業をしていますよね。 これを理解したい。 でもこれが正直、全くわからない。 だから、その話の前にf0=基本周波数の一次変換について。 そもそもなぜ基本周波数だ…