Frequency Estimation Method Using Sinusoidal Constraint Differential Equation (SCDE) and Python Implementation

信号処理音声 python

Introduction Conventional frequency estimation methods like FFT (Fast Fourier Transform) and autocorrelation functions are widely used. However, these methods share a common challenge: it is difficult to accurately estimate the frequency w…

2025-06-01

有限次数調波拘束微分方程式（Finite-Order Harmonic Constraint Differential Equation; FOHCDE）に基づく基本周波数推定とPython実装

信号処理音声 python SCDE

はじめに本記事は前回記事の続編である。前回は微分方程式の性質を利用して音の周波数を推定する手法「SCDE（Sinusoidal Constraint Differential Equation）」を紹介した。SCDEは、FFTベースの手法では困難であったわずか数ミリ秒という極めて短い信号から…

2025-06-01

正弦波制約微分方程式（Sinusoidal Constraint Differential Equation; SCDE）によるピッチ推定法をPythonで実装した

信号処理音声 python SCDE

はじめに従来のピッチ推定手法として、FFT（高速フーリエ変換）や自己相関関数などが広く使われている。しかし、これらの手法には共通の課題があった。それは、「短い時間（例えば数十ミリ秒）の信号から、複数の音が同時に鳴っている場合のピッチを正確に…

2024-11-28

音声の振幅スペクトル系列から位相スペクトル系列を深層学習で直接推定するときarctan（atan2）を経由するのも悪くないねという話

深層学習音声位相復元 python

はじめに実装評価実験実験条件実験結果考察おわりにはじめに音声の位相スペクトル系列を振幅スペクトル系列から復元する手法はいくつも提案されており，再現実装を試みた記事をこれまで書いてきた． von Mises分布DNNに基づく位相復元手法をPyTorch…

2024-10-17

位相スペクトルの有理関数近似に基づく位相復元手法（のプロトタイプ）をPythonで実装した

音声深層学習位相復元 python

はじめにお待ちかね（？）の位相復元シリーズである．手法の説明記法を簡単にするため，ある特定の音声フレームに固定して考える．このフレームに関して，位相スペクトル \( \phi(\omega) \) が有理関数で近似できると仮定する．ここで \( \omega \) は…

2024-06-25

『Online Phase Reconstruction via DNN-based Phase Differences Estimation』に基づく位相復元をLJ speech dataset上で行った話

深層学習音声位相復元 python

はじめに本記事は前回記事の続編である． tam5917.hatenablog.com 前回記事では実験がJSUTコーパス上で行われたが（basic5000 & onomatopee300），本記事ではオリジナルの論文と同じくLJ speech dataset上で実験を行ったときの結果を記録として残すものであ…

2024-06-22

『Online Phase Reconstruction via DNN-based Phase Differences Estimation』（IEEE/ACM TASLP 2023）に基づく位相復元手法をPythonで実装した

深層学習音声位相復元 python

はじめに Masuyama氏らによる位相復元の論文が出版されている． Y. Masuyama, K. Yatabe, K. Nagatomo and Y. Oikawa, "Online Phase Reconstruction via DNN-Based Phase Differences Estimation," in IEEE/ACM Transactions on Audio, Speech, and Languag…

2024-06-13

oct2py経由でPHASERETを使って位相復元を行うためのPythonスクリプトを書いた話

音声 python Octave 位相復元

はじめに位相復元を行うための MATLAB/GNU Octaveライブラリの一つにPHASERETがある． ltfat.org このライブラリをoct2py経由でPythonから使えるようにしたサンプルスクリプトをいくつか整備したので，それらを紹介するのが本記事の主旨である．ちなみに…

2024-06-01

重み付きRPUに基づく位相復元手法をPythonで実装した

深層学習音声 python 位相復元

はじめに手法実装実験音声の分析条件実験結果おわりにはじめに前回の記事でRPUに基づく位相復元手法を実装した． tam5917.hatenablog.com 今回はRPUの後続手法「重み付きRPUに基づく位相復元手法」が提案されている下記の論文を参考に，Pythonで実装…

2024-05-19

『Phase reconstruction based on recurrent phase unwrapping with deep neural networks』に基づく位相復元手法をPyTorchで実装した

深層学習音声 python 位相復元

はじめに手法実装実験音声の分析条件実験結果おわりに追記はじめに Masuyama氏らによる位相復元手法 "Phase reconstruction based on recurrent phase unwrapping with deep neural networks"が2020年に提案されている． https://ieeexplore.ieee.or…

2024-05-16

von Mises分布DNNに基づく位相復元手法をPyTorchで実装した

深層学習音声 python 位相復元

はじめに実装実験特徴抽出およびミニバッチ構築について音声の分析条件実験結果おわりに追記はじめに音声の位相復元という研究トピックが存在している．分野に不慣れな人はまず，矢田部先生の解説記事を読むことをおすすめする． www.jstage.jst.go…

2024-03-30

scipyの新しいShortTimeFFTを使って振幅スペクトルと位相スペクトルを描画した

音声 python

はじめに Pythonで短時間フーリエ変換（STFT）を計算するためのツール（ライブラリ）の一つにscipyがある． scipyでSTFTを計算するための関数がstftであったが，最新版（v1.12.0）ではlegacyに位置づけられている． scipy.signal.stft — SciPy v1.12.0 Manua…

2023-12-16

音響（音声・音楽含む）分野のビギナー向けテキストやフリーソフトなどをまとめてみた

音声音楽情報処理信号処理 python

はじめに読み物広く浅く、やさしく学びたい「音」関連のプログラミングに触れてみたい一冊持っておくと重宝するかもディープラーニング信号処理作曲に入門したい人フリーソフトそのほかおわりにはじめに音響分野のビギナー（学部生）が自習する…

2023-12-16

音声パワーと基本周波数をリアルタイムでモニタリングするスクリプトをPythonで書いた話

音声 python

はじめに実装おわりにおまけはじめに「音」の勉強を始めたビギナーにとっては、そもそも音響関係のPythonモジュールを使ったプログラミングの経験も少ないだろうと思われる。本記事はそのようなビギナー向けにプログラムの実例をひとつ提供するもので…

2023-12-16

pesqパッケージのインストールにコケたときの話（Ubuntu 22.04）

音声 python

音質を客観評価する際の指標の１つにPESQ（Perceptual Evaluation of Speech Quality）がある． Pythonで実装した方がいた． github.com 当方の環境はUbuntu 22.04.3 LTS (Jammy Jellyfish) であり，Pythonのバージョンは3.10.2である． pip経由のインストー…

2023-10-11

TensorFlow HubのSPICEを使ってメロディ推定するPythonスクリプトを書いた

python 音声

表題の通り。スクリプトではm4aを読み込むようにしているが、wavやmp3でもいけると思われる。 detect_melody_demo.py · GitHub

2023-07-27

日本語x-vectorから感情成分を分離するニューラルネットワークを構築してみた −感情分類に敵対的な損失関数の導入−

音声深層学習機械学習

はじめに本記事は前回記事の続編に相当する．前回記事では声優統計コーパスの3話者・3感情の音声データに対してx-vector抽出器を適用し，UMAPで可視化を試みた．この可視化の実験を通じて，感情成分が分離できていない傾向が見られた．すなわち，本来は話…

2023-07-21

日本語x-vector抽出器により声優統計コーパスからx-vectorを抽出してUMAPで可視化した話

深層学習音声 python

はじめに最近，日本語 x-vector 抽出器がPyPIに登録された旨がツイートされた． M1中田くんが，日本語 x-vector 抽出 (音声に含まれる話者特徴をベクトルで表現してくれるもの) を pip で入るようにしてくれました．ご活用下さい．学習済みモデルがあるので…

2022-11-21

異常音検知関連の情報まとめ

異常検知音声深層学習機械学習

異常音検知に関して、まとめてリストしておく。備忘録。解説論文・スライドスライド論文ソフトウェアデータセット書籍コンペティション解説論文・スライドスライド音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用 fro…

2022-11-19

微分可能な複素正弦波オシレータを用いて日本語5母音を近似させてみた

深層学習機械学習信号処理音声

はじめに実装実験実験条件実験結果おわりにはじめに SNSにて、しゃをみん氏が興味深い記事をツイートされていた。昨日書きました。「コンピューターは遂に「音の高低」を理解した」と言えるほどの大きな進歩です。【注目論文】Sinusoidal Frequency E…

2022-11-03

VOSKによるストリーミング音声認識の使い勝手を改善した話

python 音声

はじめに改善のヒントソースコードと動かし方特徴おわりにはじめに Pythonで音声認識を実行するためのツールとして、最近はVOSKが少しずつ使われるようになってきた。その大きなメリットのひとつはオフラインで動作するという点である。インストールも…

2022-10-10

Transformerを用いてオノマトペから環境音を合成する手法をPyTorchで実装した（Transformer版 Onoma-to-Wave）

深層学習機械学習 python 音声

はじめに事前準備実装の概要環境音合成実験実験条件実験結果実装の舞台裏などおわりにはじめに以前、Onoma-to-Waveを実装した記事を書いたことがあった： tam5917.hatenablog.com Onoma-to-Waveとはオノマトペ（文字列）を環境音（スペクトログラム…

2022-07-01

オノマトペ（擬音語）から環境音を合成するニューラルネットワーク（Onoma-to-Wave）をPyTorchで実装した

深層学習機械学習 python 音声

はじめに事前準備ソースコード実装の概要と動かし方補助的に作成したモジュールの概要おまけ：訓練済みモデルのリリース環境音合成実験音響イベントによる条件付けなし音響イベントによる条件付けあり実装の舞台裏とかTIPS おわりに参考文献はじ…

2022-01-10

PySimpleGUIとPyAudioとPyWORLDを使ったリアルタイムボイスチェンジャーの実装

python 音声

こんな感じ。 pysimpleguiとpyaudioとpyworldでボイスチェンジャーができた pic.twitter.com/5V8A6I9ZX4— mat (@ballforest) January 10, 2022 ソースコードは以下。スペクトルのプロット機能はおまけのようなもの。 Real-time voice conversion by using Py…

2022-01-10

PyAudioとPySimpleGUIを使ったリアルタイムスペクトル包絡表示

python 音声

タイトルの通り。PyWORLDを使ってスペクトル包絡を抽出した。 gist.github.com 軸の表示は今後の課題。

2022-01-10

PyAudioとPySimpleGUIを使ったリアルタイムFFTスペクトル表示

python 音声

タイトルの通り。軸の表示やラベルは今後の課題。 gist.github.com

2022-01-10

PySimpleGUIとPyAudioを使ったリアルタイム波形プロット

python 音声

偉大なる先人のプログラムを参考に書いてみたということ。 gist.github.com 参考： Real Time PyAudio wave plot and FFT transform plots from microphone · GitHub

2021-11-02

短時間フーリエ変換入門に関する記事へのリンク

音声信号処理

早稲田大学の矢田部先生による、短時間フーリエ変換に関する入門記事。第一回：連続信号と離散信号第二回：離散フーリエ変換第三回：短時間フーリエ変換第四回：信号の再構成と窓関数第五回：実装における諸注意第六回：時間周波数領域のスパース表現 …

2021-09-06

音声認識結果に基づき複数話者でテキスト音声合成する簡易音声変換アプリをPythonで書いた話

音声 python 機械学習

はじめに PySimpleGUIの応用シリーズ。スクリプトの動作の様子は以下の通り。wavファイルを音声認識して、複数話者で音声合成するデモ（最初はデフォルトのテキストで合成） pic.twitter.com/CYX5pw0qiX— mat (@ballforest) September 5, 2021 本記事の趣旨…

2021-08-27

Yahoo天気予報をスクレイピングしてしゃべらせるPythonプログラム

python 音声

表題の通り。音声認識結果に基づく天気予報の結果を音声合成によりしゃべらせた、ということ。必要なライブラリ pipでインストール可能である。 pip3 install numpy pip3 install pyopenjtalk pip3 install speech_recognition pip3 install urllib3 pip3 …