2023-01-01から1年間の記事一覧

音響(音声・音楽含む)分野のビギナー向けテキストやフリーソフトなどをまとめてみた

はじめに 読み物 広く浅く、やさしく学びたい 「音」関連のプログラミングに触れてみたい 一冊持っておくと重宝するかも ディープラーニング 信号処理 作曲に入門したい人 フリーソフト そのほか おわりに はじめに 音響分野のビギナー(学部生)が自習する…

音声パワーと基本周波数をリアルタイムでモニタリングするスクリプトをPythonで書いた話

はじめに 実装 おわりに おまけ はじめに 「音」の勉強を始めたビギナーにとっては、 そもそも音響関係のPythonモジュールを使ったプログラミングの経験も少ないだろうと思われる。 本記事はそのようなビギナー向けにプログラムの実例をひとつ提供するもので…

pesqパッケージのインストールにコケたときの話(Ubuntu 22.04)

音質を客観評価する際の指標の1つにPESQ(Perceptual Evaluation of Speech Quality)がある. Pythonで実装した方がいた. github.com 当方の環境はUbuntu 22.04.3 LTS (Jammy Jellyfish) であり,Pythonのバージョンは3.10.2である. pip経由のインストー…

積分幾何学の記事

OR学会誌より: 積分幾何学について(1) 積分幾何学について(2) 積分幾何学について(3) 積分幾何学について(4) 積分幾何学について(5)

PyODのバグフィックスをした

外れ値検知のためのPythonライブラリPyODがある。 最近、Kernel PCAにバグを見つけたので、修正のプルリクを出していたが、 無事にマージされた。 github.com

TensorFlow HubのSPICEを使ってメロディ推定するPythonスクリプトを書いた

表題の通り。 スクリプトではm4aを読み込むようにしているが、wavやmp3でもいけると思われる。 detect_melody_demo.py · GitHub

『Kernel Random Projection Depth for Outlier Detection』をPythonで実装した話

はじめに KRPDの中身 実験および実装 データセット 実装 実験結果 おわりに おまけ はじめに 最近,下記の論文がアップロードされていた. 『Kernel Random Projection Depth for Outlier Detection』 arxiv.org Pythonによる簡単なデモンストレーションを実…

Deep Divergence Learning (ICML 2020) の論文に掲載された実験結果を検証する試み −分布クラスタリング 前編−

はじめに 論文の概要 応用可能性 −分布クラスタリング− 実験: Clustering Multivariate Gaussian Distributions 実験条件 データセット生成 比較手法 ネットワークアーキテクチャ および 損失関数 評価指標 その他の実験条件 補足:経験分布の構成 実験結果…

"Differential Entropic Clustering of Multivariate Gaussians"をNumbaを使って高速化してみた話

はじめに 前回記事で実装した Differential Entropic Clustering をもう少し高速化したいなぁ,という話. tam5917.hatenablog.com 実装 やり方は簡単で,numbaをインストールして,@jit デコレータをBurg matrix divergence およびMahalanobis距離を計算す…

Differential Entropic Clustering of Multivariate Gaussians (NIPS 2006) をPythonで実装した

論文はこれ. proceedings.neurips.cc 多変量ガウス分布の平均と共分散行列の集合が与えられたときに,分布を単位として(=対応する平均と共分散をペアにして)クラスタリングするアルゴリズムが提案されている. 行列の距離を測るための"Burg matrix diver…

距離学習と深層距離学習の違い

距離学習と深層距離学習の違いについて備忘録を残しておく. 共通していること データセット中の2点 $\mathbf{x}, \mathbf{y}$間の距離関数$d(\mathbf{x}, \mathbf{y})$が与えられる. 距離関数はクラス分類やクラスタリング・異常検知などのタスクで活用さ…

日本語x-vectorから感情成分を分離するニューラルネットワークを構築してみた −感情分類に敵対的な損失関数の導入−

はじめに 本記事は前回記事の続編に相当する. 前回記事では声優統計コーパスの3話者・3感情の音声データに対してx-vector抽出器を適用し,UMAPで可視化を試みた. この可視化の実験を通じて,感情成分が分離できていない傾向が見られた.すなわち,本来は話…

日本語x-vector抽出器により声優統計コーパスからx-vectorを抽出してUMAPで可視化した話

はじめに 最近,日本語 x-vector 抽出器がPyPIに登録された旨がツイートされた. M1中田くんが,日本語 x-vector 抽出 (音声に含まれる話者特徴をベクトルで表現してくれるもの) を pip で入るようにしてくれました.ご活用下さい.学習済みモデルがあるので…

Generalized Mahalanobis depth in the reproducing kernel Hilbert spaceをPythonで実装した話

はじめに 2011年に以下の論文が出版されている. Yonggang Hu, Yong Wang, Yi Wu, Qiang Li & Chenping Hou, "Generalized Mahalanobis depth in the reproducing kernel Hilbert space," Statistical Papers volume 52, pages 511-522 (2011). link.springe…

bibファイルのコメント開始記号について(Emacs)

bibファイルにコメントを入れる場合, bibtexだと"@Comment"が開始記号として指定されている.Emacsの設定は (setq bibtex-comment-start "@Comment") が初期設定となっている.モダンなbiberを使う場合,コメント開始記号は"%"にしたいので,以下を設定に追…

非線形適応信号処理への凸解析的アプローチに関する連載記事のリンクまとめ

日本音響学会誌にて,慶應義塾大学の湯川 正裕先生による「非線形適応信号処理への凸解析的アプローチ 」という連載記事がある. 本記事ではそれら記事へのリンクをまとめておく. 2023年5月時点で最終回の記事は「フリー」ではないのですぐには読めないが,…

Kernel k-meansのコードを整理した

Mathieu Blondel氏によるKernel k-meansのPythonコードがあった。 Kernel K-means. · GitHub 上記のコードはPython 2系で書かれていたので、Python 3系で動くように整理した。 Kernel K-means. · GitHub 簡単なデモンストレーションを行うnotebookは以下の通…

拡散モデルの勉強に役立つかもしれないリンク集

拡散モデルに関する備忘録として。 大量に関連リンクを集めてもそれだけで満足してしまいがちなので、この記事では少なめで。 書籍 解説論文 解説記事 解説動画 その他 実装 書籍 拡散モデル(岡野原 大輔 著) サポートページ 解説論文 [2208.11970] Unders…

PyODにコミットしたKernel PCAのコードのバグを修正した

PyODにおけるKernel PCAのコードは最近私がコミットしたものである。 ところで最近、PyODに以下のIssueが上がっていた。 github.com SUODでインスタンスを複製して使うときに、すべての引数がNoneとして与えられる現象が起きているようだ。 引数がNoneになる…