位相スペクトルの有理関数近似に基づく位相復元手法（のプロトタイプ）をPythonで実装した

はじめに

お待ちかね（？）の位相復元シリーズである．

手法の説明

記法を簡単にするため，ある特定の音声フレームに固定して考える．このフレームに関して，位相スペクトル $ \phi(\omega) $ が有理関数で近似できると仮定する．

$\begin{align*} \phi(\omega) \approx \arctan \left( \frac{a_0 + a_1 \omega + a_2 \omega^2 + \dots + a_n\omega^n}{b_0 + b_1 \omega + b_2 \omega^2 + \ldots + b_n\omega^n}\right) \end{align*}$

ここで $ \omega $ は角周波数である．有理関数に現れる分子・分母多項式の最大次数は $ n $ としておく．本手法では，それら多項式の係数 $ a_0, a_1, \ldots, a_n, b_0, b_1, \ldots, b_n $ をニューラルネットで推定する．

位相スペクトル自体を直接ニューラルネットで推定する（回帰する）手法はこれまで多く提案されてきた．そのニューラルネットの入力は（対数）振幅スペクトルであり，出力は位相スペクトルの値であった．本記事の手法も入力は対数振幅スペクトルで共通しているが，位相スペクトルが有理関数の係数を介して間接的に推定される点が異なる．

位相スペクトルは非常に複雑なパターンを持っており，それをニューラルネットによって対数振幅スペクトルから直接推定する場合には強い非線形性が要求される．結果的にパラメタ数（層数・チャネル数）の大幅な増加を招き，訓練が難しくなりがちである．本手法のニューラルネットはあくまで係数の推定に留まっている．実用上，有理関数の多項式の次数を増やしすぎることなく，それなりの精度で位相スペクトルの推定を達成できる（と期待される）．

有理関数近似はパデ近似の趣もあるが，微分係数の一致を取っているわけではないので，パデ近似ではない．そもそも真の位相スペクトルが未知なので，微分係数も未知であり（たとえ連続関数と仮定したとしても），それらの一致を測れない．