読者です 読者をやめる 読者になる 読者になる

メルケプストラムについてのまとめ

はじめに

メルケプストラムとは何か?一言で表せば、

人間の聴覚特性を考慮したケプストラム

となるだろうか。本記事ではメルケプストラムについて簡単にまとめる。

メルケプストラムの特徴

ケプストラムとメルケプストラムの違いは以下の図に示す通りである。
f:id:tam5917:20160315102138p:plain

いずれもスペクトル包絡を少ない情報量で表現するパラメータ(音響特徴量)である。ケプストラムは周波数軸上、一様なスケールでスペクトルをサンプリングし、フーリエ変換することによって得られる*1。しかしながら、低周波数領域では感度が高く、高周波数領域では感度に乏しいという人間の聴覚特性が考慮されていない。メルケプストラムは、一様な周波数スケールから聴覚特性を反映したメルスケールへと周波数伸縮し、このメルスケール上でスペクトルをサンプリングして得られるケプストラムである。利点としては、通常のケプストラムよりも次数が少なく済むことなどが挙げられる。

メルケプストラム分析

メルケプストラムの分析(推定)方法には以下の2通りが存在する。
f:id:tam5917:20160315103820p:plain
左に示したのが非統計的な手法であり、上で説明した通りである。本来メルケプストラムは無限次数であるが、実際は有限次数で打ち切るため、誤差が発生する。この誤差により、得られたメルケプストラムに基づいて表されたスペクトルは、もとのスペクトル推定法に基づくスペクトルからは異なったものになるという欠点がある*2。一方、右に示したのは名工大の徳田先生が東工大時代に提案された方法である。打ち切り誤差に伴ったスペクトルの歪みが発生しないよう、メルケプストラムを統計的に推定する。詳細は参考文献にゆずるとして、その推定方法の概要を述べる。

  1. 現在のメルケプストラム  \boldsymbol{c} から決まるスペクトル包絡と、音声波形から \boldsymbol{x}から計算される尤度関数(評価関数)を定義する。
  2. 現在のメルケプストラムをモデルパラメータとみなし、音声波形  \boldsymbol{x} に対する尤度を最大化するメルケプストラムを推定する。
  3. 2を収束するまで繰り返すことでメルケプストラムを最適化する。

 \boldsymbol{x}は、実際にはガウス過程であることが仮定される(特別な弱定常過程)。

なお音声分析ツールキットSPTKには徳田先生の方法が実装されている。

おわりに

本記事ではメルケプストラム(通称メルケプ)について概観した。さらっと書いている部分が、実は結構(というか、かなり)難しかったりする。省略した部分も多い。参考文献に目を通すとよい。

筆者はメルケプ(に関する理論)への理解を一度ならず何度も諦めた。背景にある信号処理の理論を含めて勉強すると、これがまた難しいのよね(´・ω・`) 分かりやすい教科書はあまりなく、論文相手に必死に格闘するのみだった。

参考文献

  • 徳田恵一, 小林隆夫, 深田俊明, 斎藤博徳, 今井 聖, "メルケプストラムをパラメータとする音声のスペクトル推定,"電子情報通信学会論文誌(A), vol.J74-A, no.8, pp.1240--1248, Aug. 1991. PDF

人間の聴覚特性や「メル」に興味を持った人は、峯松先生の資料に目を通すとよい。

謝辞

本記事で使用した画像は、現(株)テクノスピーチの中村 和寛様が、名古屋工業大学 博士論文の公聴会で使用されたスライドに基づいており、ご本人の許可を得た上で画像を掲載した。

*1:実際は対数振幅スペクトルをフーリエ変換し、得られる「波形」の低次部分を抽出する

*2:メルスケール上でのスペクトルの線形平滑化に伴うひずみ