音声のモデル化単位

音声をモデル化する際、付随するテキストの情報が活用できる。最もシンプルなのはテキストをローマ字に変換して、母音と子音という単位で音声を細かく区切ってモデル化することである。これは一つの例であるが、実際はテキスト情報の活用の度合いに応じて、モデル化の単位は大きく3つに分類できる:

monophone(モノフォン)

注目している当該の音素単位でモデル化する。例えば、「明日」という音声を考えてそれを音素に分解すると

sil a sh i t a sil

となるが(silは無音を表す記号)、/a/や/sh/、/i/や/t/といった単位を考え、(それに対応する波形を切り出して)音声をモデル化する。
単一の音素のみを考慮するから「monophone」である。

triphone(トライフォン)

前後にある音素(音素の文脈)も考慮してモデル化する。上記の例で言えば、/sil-a+sh/、/a-sh+i/、/sh-i+t/といった具合である。ここで「+」や「-」という記号を使ったが、当該音素の前に接続する意味で「-」(マイナス)を用い、後ろに接続する意味で「+」を用いた。当該音素が「a」でも/sil-a+sh/と/t-a+sil/では異なるモデルと考える。口の動きは連続的であるため、当該音素が同じでも前後の音素によって動きが微妙に変わってくる。それは実際に音声波形の違いとして現れる。試しに自分で色んな単語を口パクしながら動きを考えてみてほしい。その意味が了解できると思う。
音素を前後合わせて3つ考慮するから「triphone」である。ちなみにHMM音声認識ではtriphoneモデルが用いられる。

フルコンテキスト

音声合成のためのモデル化を考える場合、音素の並びのみを考慮したmonophoneやtriphoneでは不十分である。実際には音素の並びが同じでも、例えばアクセントやイントネーションによっても波形は異なってくるため、それに応じたモデルを考慮することでより自然な音声が合成できるはず。音声波形に影響を与える要因をコンテキストと呼ぶ。以下の記事にコンテキストについてまとめた。
tam5917.hatenablog.com
フルコンテキストという呼び方は「コンテキストをたくさん考慮した詳細なモデル化単位」ぐらいに捉えるとよい。