2025-01-01から1年間の記事一覧

『今更ながらVAEって(以下略)』におけるアフィン変換に対応した潜在変数の操作により画像生成を制御できた話

はじめに 以前の記事にて、PyTorch実装の公開および定式化を示していたのだった. 『今更ながらVAEってこんなに凄かったの?ってなった話』をPyTorchで実装して結果の再現に成功した話 - 備忘録 『今更ながらVAEって(以下略)』の定式化を清書する - 備忘録…

『Griffin–Lim Like Phase Recovery via Alternating Direction Method of Multipliers』に基づく位相復元手法をPythonで再実装した話

はじめに 2019年に(モノラル)音声の位相復元に関する以下の論文が出版されている. Yoshiki Masuyama, Kohei Yatabe and Yasuhiro Oikawa, "Griffin–Lim Like Phase Recovery via Alternating Direction Method of Multipliers," in IEEE Signal Processin…

iPALM-based mel-spectrogram inversionを活用してMFCCからの音声復元を試してみた

はじめに 前回記事の続きである. tam5917.hatenablog.com ところでlibrosa には mfcc_to_audio という関数が用意されている. librosa.org この関数はMFCC(音声認識では定番の特徴量)を音声に復元する機能を実装している.処理の具体的な中身は mfcc_to_m…

iPALM-based mel-spectrogram inversion (ICASSP 2023) をPythonで実装しメルスペクトログラムからの音声復元を試してみた

はじめに 前回記事の続きである。 tam5917.hatenablog.com その記事では以下の論文で提案されたアルゴリズムを実装していた。 Yoshiki Masuyama, Natsuki Ueno, and Nobutaka Ono, "Mel-Spectrogram Inversion via Alternating Direction Method of Multipli…

『Mel-Spectrogram Inversion via Alternating Direction Method of Multipliers』に基づくメルスペクトログラムからの音声復元手法をPythonで実装してみた

はじめに 最近,以下の論文がarXivで見つかった: Yoshiki Masuyama, Natsuki Ueno, and Nobutaka Ono, "Mel-Spectrogram Inversion via Alternating Direction Method of Multipliers, " arXiv:2501.05557, 2025 arxiv.org メルスペクトログラムから元の音…

日本語x-vector抽出器により声優統計コーパスからx-vectorを抽出してPaCMAPで可視化した話

はじめに 次元削減の新たな手法として,PaCMAPの存在を知った. github.com 以前の記事にて,声優統計コーパスを対象に,次元削減手法の1つであるUMAPを使ってxvectorの可視化を試みた. tam5917.hatenablog.com 今回はPaCMAPで同様の可視化を試みたので,そ…

『今更ながらVAEって(以下略)』の有効性を評価するための実験計画について

はじめに 『今更ながらVAEって(以下略)』に関する記事を先日から書いていた.いち手法(いち生成モデル)としての「有効性」をきちんと検証したい場合,以下の観点で実験的評価を行えば良いのではないか. 生成画像の幾何学的な変動が、潜在空間上で意図通…

『今更ながらVAEって(以下略)』における幾何学的変動の正規化は普通のAEでも概ね実現できたという話

はじめに 最近VAEに関する記事を書いた。 tam5917.hatenablog.com 潜在変数の一部をアフィン変換のパラメタとして分離する話は、生成モデルではない普通のAE(オートエンコーダ)でも通用する。元記事の元記事を読めば、コンセプト自体はVAEに特有の道具を使…

『今更ながらVAEって(以下略)』の定式化を清書する

はじめに 先日、以下の記事を書いた。 tam5917.hatenablog.com 新年なので(?)、その定式化を清書しようというわけである。長くなってしまったので、急ぐ人は「8. 考察」からどうぞ。 はじめに 定式化 1. 問題設定:変分推論による生成モデル 2. 変分推論 …

電話の「プルルル」音を作って鳴らすPythonコード

はじめに 以下のポストが目に入った。 プルルルの作り方(1+0.85sin(2π×18t))sin(2π×400t)を3秒おきに1秒間鳴らすと良いらしい全然電話に出ない相手を呼び出し中に暇つぶしで調べてたら完全に理解した(参考:事業用電気通信設備規則第三十三条別表第五号可…