音声合成の確率統計的な定式化その２：予測分布と音響モデルの導入

はじめに

音声データベースからテキスト $\boldsymbol{W}$ と音声波形 $\boldsymbol{X}$ 、そして任意のテキスト $\boldsymbol{w}$ が与えられたとき、対応する音声波形を求めよ、というのが音声合成の基本問題だった。
f:id:tam5917:20160307151659p:plain:w600

定式化

この問題を確率統計的な視点で捉えてみよう。求めたい音声波形を確率変数として考えて、その他のものは静的な変数つまり固定値とみなすのである。ちょっと考えてみると、確率分布を用いた次式の表現は自然に思いつくのではないかな（え？そんなことないって？）：

${ \displaystyle \boldsymbol{x} \sim p(\boldsymbol{x} \mid \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}) }$

ここで $p(\boldsymbol{x} \mid \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W})$ は予測分布と呼ばれる。未知の音声波形を予測する確率分布、そのまんまの名前だ。記号” $\sim$ ”は「分布からのサンプリング」を表す。上式は予測分布からのサンプリング結果を合成波形としよう、という内容の数式表現である。したがって予測分布がデータから推定できればよい。しかしながら、そんな分布の形は一般には未知である。そこで予測分布が実際に計算できるよう、いくらか式変形を加えていこう。

積分を用いて予測分布を少し書き換える。いわゆる周辺化の操作が施されて予測分布が与えられているとする：

${ \displaystyle p(\boldsymbol{x} \mid \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}) = \int p(\boldsymbol{x, \lambda} \mid \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}) \; d\boldsymbol{\lambda} }$

さて、 $\boldsymbol{\lambda}$ を導入したが、これは一体何者か？　実はこの後すぐに示す式変形で導入される、音響モデルのモデルパラメータである。音響モデルと聞いて、なじみのない方がいるかもしれないが、要はテキスト情報*1と音声波形*2の対応関係を数学的にモデル化したものである。具体的なモデルの記述には確率分布が用いられており、その分布のパラメータをモデルパラメータと呼んでいる。そしてベイズ推定の枠組みを考えるので、モデルパラメータ $\boldsymbol{\lambda}$ は確率変数として扱われる（ベイズ推定？なんだそれ？と思うのも無理はないですよねー）。

もう少しだけ変形を続けよう。

${ \begin{eqnarray} p(\boldsymbol{x} \mid \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}) &=& \int p(\boldsymbol{x, \lambda} \mid \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}) \; d\boldsymbol{\lambda}\\ &=& \int p(\boldsymbol{x} \mid \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}, \boldsymbol{\lambda}) p(\boldsymbol{\lambda} \mid \boldsymbol{w}, \boldsymbol{W}, \boldsymbol{X}) \; d\boldsymbol{\lambda}\\ &=& \int p(\boldsymbol{x} \mid \boldsymbol{w}, \boldsymbol{\lambda}) p(\boldsymbol{\lambda} \mid \boldsymbol{W}, \boldsymbol{X}) \; d\boldsymbol{\lambda} \end{eqnarray} }$

２行目から３行目の式変形には以下の仮定が入っている：

$p(\boldsymbol{\lambda} \mid \boldsymbol{w}, \boldsymbol{W}, \boldsymbol{X}) = p(\boldsymbol{\lambda} \mid \boldsymbol{W}, \boldsymbol{X})$ ：後に示されるが、右辺からは音響モデルの学習プロセスが導かれる。そこには合成したいテキストの情報 $\boldsymbol{w}$ は必要ない。したがって $\boldsymbol{w}$ が条件から落ちる。
$p(\boldsymbol{x} \mid \boldsymbol{w}, \boldsymbol{X}, \boldsymbol{W}, \boldsymbol{\lambda}) = p(\boldsymbol{x} \mid \boldsymbol{w}, \boldsymbol{\lambda})$ ：右辺は音響モデルによる音声波形のモデル化に対応している。モデルパラメータ $\lambda$ は音声データベースから決まるものとするので、左辺に現れる $\boldsymbol{X}, \boldsymbol{W}$ とは無関係になる。