本稿では基本周波数についての予備知識を簡単にまとめることにする。
【2020/11/20】Pythonによる実装例を追加(ページ最下部にリンク有り)
基本周波数(F0)とは
- 音声の周期性を表現,音高を司る音響特徴量
- F0の有無 ⇒ 音声は有声音と無声音に大別
- 音高は様々な情報を表現
- 言語情報 (単語のアクセント等)
- 話者情報 (男女の声の高さの違い等)
- F0の有無 ⇒ 音声は有声音と無声音に大別
- F0の正確な抽出は困難
- 音声波形は準周期信号(声帯振動の準周期性)
- 収録音声には雑音が混在
- 有声音におけるF0の変化範囲は広域
このようにF0は音声のアプリケーションを考える上でも重要なパラメータであると同時にその抽出は難しい。そこで以下に述べるような様々な手法が提案されてきたわけである。
基本周波数の推定手法
古典的な手法を列挙する。(古井著、『新音響・音声工学』125ページより一部抜粋)
もちろんこれが全てではないが、抽出の精度的にも今ではそれほど用いられない?(というか自分がそこまで知らない)
推定手法 | 説明 |
---|---|
波形包絡法 | 音声波形の包絡を強調しピークを検出 |
零交差法 | 零交差数により繰り返しパターンを検出 |
自己相関法 | 波形の自己相関関数のピークを検出 |
変形相関法 | LPC分析の残差信号の自己相関関数、残差信号のローパスフィルタと極性化により演算の簡略化が可能 |
直接線形予測法 | 低次のLPC分析により直接F0を推定 |
平均振幅差関数法 | 波形の平均振幅差関数のピークを利用 |
ケプストラム法 | パワースペクトルの対数の逆フーリエ変換によりスペクトル包絡と微細構造を分離する。 |
ピリオドヒストグラム法 | 高調波スペクトルのヒストグラムピークを検出し,ピークとなる周波数の公約数により推定 |
以下、上記の表以外の手法をまとめる(間違いがあればコメントを)。
A Robust Algorithm for Pitch Tracking (RAPT)
- 広く用いられているF0推定手法
- F0を系列として推定 ⇒ 頑健な推定が可能
- 動的計画法を実行
- F0候補コスト :正規化自己相関,調節パラメータ
- 遷移コスト :振幅・スペクトルの変化量,調節パラメータ
- 音声分析のフリーソフトWavesurferに実装済
- 本来はSnackというパッケージに同梱 (GetF0)
- 正確にはSnackをWavesurferが利用する形
- SPTKからも利用可能
- pitchコマンド('-a 0' オプション)
- 文献
- D. Talkin, "A Robust Algorithm for Pitch Tracking (RAPT)," in Speech Coding & Synthesis, W. B. Kleijn and K. K. Pailwal (Eds.), Elsevier, pp.495–518, 1995 (PDF).
A Sawtooth Waveform Inspired Pitch Estimator (SWIPE)
- SPTKからも利用可能
- pitchコマンド('-a 1' オプション)
- 上記C言語実装を内部でwrapする形で利用
STRAIGHT
一応まとめると、
- 和歌山大学の河原先生がオリジナルの開発者
- 音声のピッチや声質、体の大きさなどの様々な属性を操作するためのツール
- 自然音声とほとんど区別できない高い品質を実現するために、聴覚モデルと信号処理の最新の成果を取り入れている
- 2007年に森勢将雅 氏(現在:山梨大学)が発明したTANDEMに基づいて、STRAIGHTが根本的に再構築されてTANDEM-STRAIGHTとなる
- 音声知覚の研究用のツールとして開発。 1930年代から本格化した膨大な音声知覚研究の蓄積を活かして、その延長上に新しい研究を積み上げることができるように、 音源とフィルタという概念に基づいた構造をしている
- 基本周波数の推定だけでなくスペクトル包絡なども抽出
- 上記概要に述べたことが目的であり、基本周波数の抽出のみが目的ではない(重要)
- 抽出するのは「基本周波数(音の高さ)」、「スペクトル包絡(音色)」、「非周期性指標(声のかすれ具合)」
- HMM音声合成ツールキット (HTS) でも利用
- メルケプストラム法にもとづくソースフィルタモデルよりも音質のよい音声を合成可能(より優れた分析合成系)
- 音声の精密な制御が可能(例:音声モーフィング)
- 公式ページ
WORLD
一応まとめると、
- 山梨大学の森勢先生がオリジナルの開発者
- 基本周波数の推定だけでなくスペクトル包絡なども抽出
- 音声の分析合成が目的であり、基本周波数の抽出のみが目的ではない(音声分析変換合成システム)
- 抽出するのは「基本周波数(音の高さ)」、「スペクトル包絡(音色)」、「励起信号」であり、それぞれDIO、CheapTrick 、PLATINUMという手法が利用される。
- 子音の制御は困難
- 基本周波数推定法DIOはノイズに弱い
- 公式ページ
- 文献
WORLDについての情報は以下から抜粋した。一読すれば参考になるのではないか(非初心者向け?)
WORLDとSTRAIGHTの違い - Togetter
REAPER
次回の記事で紹介。
YIN
- 相互相関関数に基づく特徴量に対し、零点 or 零に近い地点の集合から極小値を与える地点をF0検出に利用(実際にはもう少し色々)
- 文献
- A.de Cheveign´e, and H.Kawahara, “YIN, a fundamental frequency estimator for speech and music,” JASA, vol.111(4), pp.1917-1930, 2002.
TEMPO
- フィルタバンク出力の瞬時周波数とフィルタの中心周波数から求まる不動点を利用して推定
- 文献
- H.Kawahara, H.Katayose, A.de Cheveign´e, and R.D.Patterson, “Fixed point analysis of frequency to instantaneous frequency mapping for accurate estimation of F0 and periodicity,” Proc.Eurospeech99, pp.2781-2784, 1999.
その他
きっと色々あるので調べてみて欲しい。というか教えてくれ。