音声合成の確率統計的な定式化 その2:予測分布と音響モデルの導入

はじめに

音声データベースからテキスト\boldsymbol{W}と音声波形\boldsymbol{X}、そして任意のテキスト\boldsymbol{w}が与えられたとき、対応する音声波形を求めよ、というのが音声合成の基本問題だった。
f:id:tam5917:20160307151659p:plain:w600

定式化

この問題を確率統計的な視点で捉えてみよう。求めたい音声波形を確率変数として考えて、その他のものは静的な変数つまり固定値とみなすのである。ちょっと考えてみると、確率分布を用いた次式の表現は自然に思いつくのではないかな(え?そんなことないって?):

{ \displaystyle
\boldsymbol{x} \sim  p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W})
}

ここで { \displaystyle p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W})}予測分布と呼ばれる。未知の音声波形を予測する確率分布、そのまんまの名前だ。記号”\sim”は「分布からのサンプリング」を表す。上式は予測分布からのサンプリング結果を合成波形としよう、という内容の数式表現である。したがって予測分布がデータから推定できればよい。しかしながら、そんな分布の形は一般には未知である。そこで予測分布が実際に計算できるよう、いくらか式変形を加えていこう。

積分を用いて予測分布を少し書き換える。いわゆる周辺化の操作が施されて予測分布が与えられているとする:

{ \displaystyle
 p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}) = \int  p(\boldsymbol{x, \lambda} \mid  \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}) \; d\boldsymbol{\lambda}
}

さて、 \boldsymbol{\lambda}を導入したが、これは一体何者か? 実はこの後すぐに示す式変形で導入される、音響モデルのモデルパラメータである。音響モデルと聞いて、なじみのない方がいるかもしれないが、要はテキスト情報*1と音声波形*2の対応関係を数学的にモデル化したものである。具体的なモデルの記述には確率分布が用いられており、その分布のパラメータをモデルパラメータと呼んでいる。そしてベイズ推定の枠組みを考えるので、モデルパラメータ \boldsymbol{\lambda}確率変数として扱われる(ベイズ推定?なんだそれ?と思うのも無理はないですよねー)。

もう少しだけ変形を続けよう。

{ \begin{eqnarray}
 p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}) &=& \int  p(\boldsymbol{x, \lambda} \mid  \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}) \; d\boldsymbol{\lambda}\\
&=& \int p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}, \boldsymbol{\lambda}) p(\boldsymbol{\lambda} \mid  \boldsymbol{w}, \boldsymbol{W}, \boldsymbol{X}) \; d\boldsymbol{\lambda}\\
&=& \int p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{\lambda}) p(\boldsymbol{\lambda} \mid  \boldsymbol{W}, \boldsymbol{X}) \; d\boldsymbol{\lambda}
 \end{eqnarray}
}

2行目から3行目の式変形には以下の仮定が入っている:

  •  p(\boldsymbol{\lambda} \mid  \boldsymbol{w}, \boldsymbol{W}, \boldsymbol{X}) = p(\boldsymbol{\lambda} \mid  \boldsymbol{W}, \boldsymbol{X}) :後に示されるが、右辺からは音響モデルの学習プロセスが導かれる。そこには合成したいテキストの情報 \boldsymbol{w}は必要ない。したがって \boldsymbol{w}が条件から落ちる。
  •   p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}, \boldsymbol{\lambda}) = p(\boldsymbol{x} \mid  \boldsymbol{w}, \boldsymbol{\lambda}) :右辺は音響モデルによる音声波形のモデル化に対応している。モデルパラメータ \lambdaは音声データベースから決まるものとするので、左辺に現れる  \boldsymbol{X}, \boldsymbol{W}とは無関係になる。

今回はここまで。

まとめ

今回は音声合成の基本問題を予測分布を導入した定式化に翻訳した。予測分布を直接に推定するのは困難なので、分布を変形して計算可能なところまでもっていくのが式変形のモチベーションである。その過程で、音響モデルが導入された。音響モデルは音声波形とテキストをつなぐ数学的なモデルである。

次回予告

次回、予測分布をさらに変形して計算しやすいところまでもっていく予定。うーん、数式多くて難しい(´・ω・`)

~続く~

*1:生のテキストとは限らない;言語的情報のほうが正確かな。

*2:もしくはそのパラメータ表現である音響特徴量