読者です 読者をやめる 読者になる 読者になる

音声合成の確率統計的な定式化 その3:音声波形のパラメトリック表現

前回までのあらすじ

音声合成の基本問題
f:id:tam5917:20160307151659p:plain:w500
をこんな感じに数式で表現して、

{ \displaystyle
\boldsymbol{x} \sim  p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W})
}

次に上式の右辺に現れる予測分布の式変形を進めたのであった。

{ \begin{eqnarray}
 p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}) &=& \int  p(\boldsymbol{x, \lambda} \mid  \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}) \; d\boldsymbol{\lambda}\\
&=& \int p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{\lambda}) p(\boldsymbol{\lambda} \mid  \boldsymbol{W}, \boldsymbol{X}) \; d\boldsymbol{\lambda}
 \end{eqnarray}
}

本記事では式変形をさらに続ける。

音声波形のパラメトリック表現の導入

上式の右辺において、  p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{\lambda})は、音声波形の直接的なモデル化を表現している。2016年現在で波形を直接モデル化対象とする研究はいくつか行われているが、ここでは直接的なモデル化ではなく、音声波形の中間表現としてのパラメトリック表現  \boldsymbol{o}を導入する。音声波形の直接的なモデリングの研究は稿を改めて紹介する予定である。パラメトリック表現については以下の記事を参照されたい。具体的にはスペクトル包絡のパラメータや基本周波数のパラメータなどである。
tam5917.hatenablog.com

さて \boldsymbol{o}のモデル化を念頭に以下の式変形を加えよう。

{ \begin{eqnarray}
 p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}) 
&=& \int p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{\lambda}) p(\boldsymbol{\lambda} \mid  \boldsymbol{W}, \boldsymbol{X}) \; d\boldsymbol{\lambda}\\
&=& \int p(\boldsymbol{x}, \boldsymbol{o} \mid  \boldsymbol{w}, \boldsymbol{\lambda}) p(\boldsymbol{\lambda} \mid  \boldsymbol{W}, \boldsymbol{X}) \; d\boldsymbol{\lambda}d\boldsymbol{o}\\
&=&  \int p(\boldsymbol{x} \mid \boldsymbol{o}, \boldsymbol{w}, \boldsymbol{\lambda})  p(\boldsymbol{o} \mid \boldsymbol{w}, \boldsymbol{\lambda}) p(\boldsymbol{\lambda} \mid  \boldsymbol{W}, \boldsymbol{X}) \; d\boldsymbol{\lambda}d\boldsymbol{o}\\
&=&  \int p(\boldsymbol{x} \mid \boldsymbol{o})  p(\boldsymbol{o} \mid \boldsymbol{w}, \boldsymbol{\lambda}) p(\boldsymbol{\lambda} \mid  \boldsymbol{W}, \boldsymbol{X}) \; d\boldsymbol{\lambda}d\boldsymbol{o}
 \end{eqnarray}
}

1行目から2行目の変形は \boldsymbol{o}が潜在変数として用いられることを意味している。3行目から4行目の変形では、音声波形 \boldsymbol{x} \boldsymbol{o}でモデル化されるという仮定が入っている。そこにはモデルパラメータ \boldsymbol{\lambda}や合成テキスト \boldsymbol{w}は必要とされない。実質的な統計的モデリングの対象が  p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{\lambda})から  p(\boldsymbol{o} \mid \boldsymbol{w}, \boldsymbol{\lambda})へと変わることには注意を要する。

〜続く〜

まだ続くのか。。(´・ω・`)