wav2pixがpython2系で実装されていたので、python3系で動くように修正した

wav2pixというGANの派生モデルがある。

要するに、音声から顔画像を生成するgeneratorを持つGANである。

図1: wav2pixのネットワーク構成

qiita.com

wav2pixの実装はgithub上に見つかるのだが、いかんせんpython2系で実装されておりイマイチだったので、 これをpython3系でも動くよう、取り急ぎfixしたということ。

github.com

動作確認環境はpython3.6.9 on Ubuntu 18.04 LTSである。スクリプト全体はblackによりフォーマット済である。

実際にwav2pixを手元で動かして得られた生成画像はこんな感じ。

図2: wav2pixによる生成結果
上記の記事で紹介されているものと同様の画像であり、悪くない結果と言えるだろう。

ソースコードをpylintでチェックするとまだスコアが低いので、コードの修正はさらに必要である。