位相スペクトルの有理関数近似に基づく位相復元手法（のプロトタイプ）をPythonで実装した

音声深層学習位相復元 python

はじめにお待ちかね（？）の位相復元シリーズである．手法の説明記法を簡単にするため，ある特定の音声フレームに固定して考える．このフレームに関して，位相スペクトル \( \phi(\omega) \) が有理関数で近似できると仮定する．ここで \( \omega \) は…

2024-07-06

【Emacs】eglotでbasedpyrightを使う設定

emacs python

basedpyrightをインストールしたうえでこうする。 (with-eval-after-load 'eglot (add-hook 'eglot-server-programs '(python-ts-mode . ("basedpyright-langserver" "--stdio")))) 最新のeglotにはbasedpyrightの設定もマージされているけども、Emacs 29系…

2024-07-05

tqdmでprogressbar2相当のフォーマット指定をする場合

python

例えばこう書く。tqdmのbar_formatを少し調整すれば良い。 import time from tqdm import tqdm for _ in tqdm( range(5), desc="Your Description", bar_format="{desc}: {percentage:3.0f}% ({n_fmt} of {total_fmt}) |{bar}|" " Elapsed Time: {elapsed} E…

2024-07-01

【Emacs】Pythonを書く設定2024下半期

emacs python

Pythonを書くためのEmacsの設定は常にアップデートしている． reformatter および ruff-format をインストールする．これ以外にもtempelの設定もしてある．tempelについては以下の記事にて．【Emacs】テンプレート用パッケージTempelの設定 - 備忘録当然…

2024-06-30

【Emacs】smartchrの設定 for Python

emacs python

例えばこんな感じ。 (defun smartchr-keybindings-python () (local-set-key (kbd "=") (smartchr '(" = " " == " "="))) (local-set-key (kbd "+") (smartchr '(" + " "++" " += " "+"))) (local-set-key (kbd "-") (smartchr '(" - " "--" " -= " "-"))) (…

2024-06-25

『Online Phase Reconstruction via DNN-based Phase Differences Estimation』に基づく位相復元をLJ speech dataset上で行った話

深層学習音声位相復元 python

はじめに本記事は前回記事の続編である． tam5917.hatenablog.com 前回記事では実験がJSUTコーパス上で行われたが（basic5000 & onomatopee300），本記事ではオリジナルの論文と同じくLJ speech dataset上で実験を行ったときの結果を記録として残すものであ…

2024-06-22

『Online Phase Reconstruction via DNN-based Phase Differences Estimation』（IEEE/ACM TASLP 2023）に基づく位相復元手法をPythonで実装した

深層学習音声位相復元 python

はじめに Masuyama氏らによる位相復元の論文が出版されている． Y. Masuyama, K. Yatabe, K. Nagatomo and Y. Oikawa, "Online Phase Reconstruction via DNN-Based Phase Differences Estimation," in IEEE/ACM Transactions on Audio, Speech, and Languag…

2024-06-13

oct2py経由でPHASERETを使って位相復元を行うためのPythonスクリプトを書いた話

音声 python Octave 位相復元

はじめに位相復元を行うための MATLAB/GNU Octaveライブラリの一つにPHASERETがある． ltfat.org このライブラリをoct2py経由でPythonから使えるようにしたサンプルスクリプトをいくつか整備したので，それらを紹介するのが本記事の主旨である．ちなみに…

2024-06-01

重み付きRPUに基づく位相復元手法をPythonで実装した

深層学習音声 python 位相復元

はじめに手法実装実験音声の分析条件実験結果おわりにはじめに前回の記事でRPUに基づく位相復元手法を実装した． tam5917.hatenablog.com 今回はRPUの後続手法「重み付きRPUに基づく位相復元手法」が提案されている下記の論文を参考に，Pythonで実装…

2024-05-19

『Phase reconstruction based on recurrent phase unwrapping with deep neural networks』に基づく位相復元手法をPyTorchで実装した

深層学習音声 python 位相復元

はじめに手法実装実験音声の分析条件実験結果おわりに追記はじめに Masuyama氏らによる位相復元手法 "Phase reconstruction based on recurrent phase unwrapping with deep neural networks"が2020年に提案されている． https://ieeexplore.ieee.or…

2024-05-16

von Mises分布DNNに基づく位相復元手法をPyTorchで実装した

深層学習音声 python 位相復元

はじめに実装実験特徴抽出およびミニバッチ構築について音声の分析条件実験結果おわりに追記はじめに音声の位相復元という研究トピックが存在している．分野に不慣れな人はまず，矢田部先生の解説記事を読むことをおすすめする． www.jstage.jst.go…

2024-04-27

PyTorch 版 Gated Linear Unit (GLU) のラッパー

深層学習 python

はじめに PyTorchにもGated Linear Unit (GLU)は用意されているが，アフィン変換などの部分はGLUモジュールの外で書かないといけない．"Linear" は一体どこへやら． pytorch.org なのでラッパーを書いたということ．ソースコードここに置いた．畳み込みはC…

2024-03-30

scipyの新しいShortTimeFFTを使って振幅スペクトルと位相スペクトルを描画した

音声 python

はじめに Pythonで短時間フーリエ変換（STFT）を計算するためのツール（ライブラリ）の一つにscipyがある． scipyでSTFTを計算するための関数がstftであったが，最新版（v1.12.0）ではlegacyに位置づけられている． scipy.signal.stft — SciPy v1.12.0 Manua…

2024-01-12

Conv1d の後段にBatchNorm1dではなくLayerNormを置きたいとき

python 深層学習

GroupNormを使う． nn.BatchNorm1d(out_channels) から nn.GroupNorm(1, out_channels) への置き換えでOK．GroupNormの第1引数はグループ数であり，ここを1に指定するとLayerNormと等価になる． discuss.pytorch.org

2023-12-16

音響（音声・音楽含む）分野のビギナー向けテキストやフリーソフトなどをまとめてみた

音声音楽情報処理信号処理 python

はじめに読み物広く浅く、やさしく学びたい「音」関連のプログラミングに触れてみたい一冊持っておくと重宝するかもディープラーニング信号処理作曲に入門したい人フリーソフトそのほかおわりにはじめに音響分野のビギナー（学部生）が自習する…

2023-12-16

音声パワーと基本周波数をリアルタイムでモニタリングするスクリプトをPythonで書いた話

音声 python

はじめに実装おわりにおまけはじめに「音」の勉強を始めたビギナーにとっては、そもそも音響関係のPythonモジュールを使ったプログラミングの経験も少ないだろうと思われる。本記事はそのようなビギナー向けにプログラムの実例をひとつ提供するもので…

2023-12-16

pesqパッケージのインストールにコケたときの話（Ubuntu 22.04）

音声 python

音質を客観評価する際の指標の１つにPESQ（Perceptual Evaluation of Speech Quality）がある． Pythonで実装した方がいた． github.com 当方の環境はUbuntu 22.04.3 LTS (Jammy Jellyfish) であり，Pythonのバージョンは3.10.2である． pip経由のインストー…

2023-11-18

PyODのバグフィックスをした

python

外れ値検知のためのPythonライブラリPyODがある。最近、Kernel PCAにバグを見つけたので、修正のプルリクを出していたが、無事にマージされた。 github.com

2023-10-11

TensorFlow HubのSPICEを使ってメロディ推定するPythonスクリプトを書いた

python 音声

表題の通り。スクリプトではm4aを読み込むようにしているが、wavやmp3でもいけると思われる。 detect_melody_demo.py · GitHub

2023-09-07

『Kernel Random Projection Depth for Outlier Detection』をPythonで実装した話

機械学習 python

はじめに KRPDの中身実験および実装データセット実装実験結果おわりにおまけはじめに最近，下記の論文がアップロードされていた．『Kernel Random Projection Depth for Outlier Detection』 arxiv.org Pythonによる簡単なデモンストレーションを実…

2023-08-26

"Differential Entropic Clustering of Multivariate Gaussians"をNumbaを使って高速化してみた話

機械学習 python

はじめに前回記事で実装した Differential Entropic Clustering をもう少し高速化したいなぁ，という話． tam5917.hatenablog.com 実装やり方は簡単で，numbaをインストールして，@jit デコレータをBurg matrix divergence およびMahalanobis距離を計算す…

2023-08-22

Differential Entropic Clustering of Multivariate Gaussians (NIPS 2006) をPythonで実装した

機械学習 python

論文はこれ． proceedings.neurips.cc 多変量ガウス分布の平均と共分散行列の集合が与えられたときに，分布を単位として（＝対応する平均と共分散をペアにして）クラスタリングするアルゴリズムが提案されている．行列の距離を測るための"Burg matrix diver…

2023-07-21

日本語x-vector抽出器により声優統計コーパスからx-vectorを抽出してUMAPで可視化した話

深層学習音声 python

はじめに最近，日本語 x-vector 抽出器がPyPIに登録された旨がツイートされた． M1中田くんが，日本語 x-vector 抽出 (音声に含まれる話者特徴をベクトルで表現してくれるもの) を pip で入るようにしてくれました．ご活用下さい．学習済みモデルがあるので…

2023-06-13

Generalized Mahalanobis depth in the reproducing kernel Hilbert spaceをPythonで実装した話

機械学習統計学 python

はじめに 2011年に以下の論文が出版されている． Yonggang Hu, Yong Wang, Yi Wu, Qiang Li & Chenping Hou, "Generalized Mahalanobis depth in the reproducing kernel Hilbert space," Statistical Papers volume 52, pages 511-522 (2011). link.springe…

2023-03-17

Kernel k-meansのコードを整理した

機械学習 python

Mathieu Blondel氏によるKernel k-meansのPythonコードがあった。 Kernel K-means. · GitHub 上記のコードはPython 2系で書かれていたので、Python 3系で動くように整理した。 Kernel K-means. · GitHub 簡単なデモンストレーションを行うnotebookは以下の通…