『Online Phase Reconstruction via DNN-based Phase Differences Estimation』に基づく位相復元をLJ speech dataset上で行った話

はじめに

本記事は前回記事の続編である．

tam5917.hatenablog.com

前回記事では実験がJSUTコーパス上で行われたが（basic5000 & onomatopee300），本記事ではオリジナルの論文と同じくLJ speech dataset上で実験を行ったときの結果を記録として残すものである．

実装

以下のリポジトリに置いた．Enjoy!

github.com

前回と同じリポジトリに含めても良かったのだが，別のリポジトリとして分けることにした．ファイル構成は前回記事のリポジトリと同じなので省略する．

評価実験

LJ speech datasetから12,500発話を訓練データとし，開発データと評価データにそれぞれ300発話を用いて位相復元実験を行った．客観評価指標にESTOI，(wideband) PESQ，LSC (log-spectral convergence)を採用した．

提案手法と比較するのは以下のオンライン手法たちである：

Single Pass Spectrogram Inversion (SPSI)
Real-Time Phase Gradient Heap Integration (RTPGHI)
Real-Time Iterative Spectrogram Inversion (RTISI)

実験条件

計算機環境およびニューラルネットワークの仕様は前回記事と同じなので省略する．訓練の設定は以下の通りである．

項目	設定
ミニバッチサイズ	32
エポック数	30
オプティマイザ	RAdam
学習率	0.001
勾配クリッピングのしきい値	10.0
重み減衰（という名のL2正則化）の強さ	0.000001
学習率スケジューラ	linear warmup つき cosine annlealing （半周期）
warm up のエポック数	5
warm up 開始時の学習率	0.000001
annealing の終端での学習率	0.0005

音声フレーム特徴量の設定は以下の通りである．

項目	設定
標本化周波数	22050Hz
音響特徴量	対数振幅スペクトルおよび位相スペクトル
分析窓	ハン窓
FFTの窓長	1024
フレーム長	1024
フレームシフト	256

訓練データの各音声クリップを1.0秒ごとに事前に分割した．分割により生じた端数は訓練に利用しない．最終的には75,882個の音声クリップに分割された．

「重み行列」の値を制御するハイパパラメタには，べき乗パラメタ\(p\)および係数\(\gamma_0\)があるが，本実験はそれぞれ1.0と100に設定した．

実験結果

図1に各評価指標の箱ひげ図を示す．提案手法は"TOPR"（Two-stage Online Phare Reconstruction）で示されている．図より，提案手法はLSC以外の2指標で比較手法を上回ったことが示された．これは前回記事と同傾向である．しかしながら依然として論文ほどの高スコアには到達できなかった．