2017-04-06

音声／音楽生成・音響処理分野におけるEnd-to-End系の論文情報とか各種スライド情報とかを忘れないうちにメモ

深層学習

なんだか最近、当該分野でEnd-to-End系の論文が急に増えたなぁということで、忘れないうちに自分用にメモ。面白そうな論文情報も含めて。もうね、正直言ってお腹いっぱいなんですけど、流れには逆らえないですね。ほとんどarXivなので、信頼性は担保されておらず、あくまで参考までに。気が向いたら一言コメントつけます。
※音声認識系はあえて外しました。

Paper

Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders
- URL https://arxiv.org/abs/1704.01279
- Blog & Demo NSynth: Neural Audio Synthesis
- Google Brain and DeepMind’s work

Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model
- URL https://arxiv.org/abs/1703.10135
- Demo https://google.github.io/tacotron/
- Google’s work, "submitted to Interspeech 2017"

MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions
- URL https://arxiv.org/abs/1703.10847
- Academia Sinica’s work

SEGAN: Speech Enhancement Generative Adversarial Network
- URL https://arxiv.org/abs/1703.09452
- Demo http://veu.talp.cat/segan/
- Code https://github.com/santi-pdp/segan
- a method of end-to-end speech enhancement

Raw Waveform-based Speech Enhancement by Fully Convolutional Networks
- URL https://arxiv.org/abs/1703.02205
- a method of end-to-end speech enhancement

Deep Voice: Real-time Neural Text-to-Speech
- URL https://arxiv.org/abs/1702.07825
- Demo http://research.baidu.com/deep-voice-production-quality-text-speech-system-constructed-entirely-deep-neural-networks/
- Baidu’s work; a method of end-to-end speech synthesis

Char2Wav: End-to-End Speech Synthesis
- URL https://openreview.net/forum?id=B1VWyySKx
- Demo http://josesotelo.com/speechsynthesis/

SampleRNN: An Unconditional End-to-End Neural Audio Generation Model
- URL https://arxiv.org/abs/1612.07837

WaveNet: A Generative Model for Raw Audio
- URL https://arxiv.org/abs/1609.03499

GAN系でとりあえず以下。それにしてもGAN系の論文も、タケノコのようにポコポコ出てきますね。

Towards Principled Methods for Training Generative Adversarial Networks
- URL https://arxiv.org/abs/1701.04862

Wasserstein GAN
- URL https://arxiv.org/abs/1701.07875

Improved Training of Wasserstein GANs
- URL https://arxiv.org/abs/1704.00028
- Code https://github.com/igul222/improved_wgan_training

Voice Conversion from Unaligned Corpora using Variational Autoencoding Wasserstein Generative Adversarial Networks
- URL https://arxiv.org/abs/1704.00849
- Demo https://jeremycchsu.github.io/vc-vawgan/

BEGAN: Boundary Equilibrium Generative Adversarial Networks
- URL https://arxiv.org/abs/1703.10717

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
- URL https://arxiv.org/abs/1703.10593

以下も参考までに。

Slide

[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adversarial Networks from DeepLearningJP2016

www.slideshare.net

Generative Model-Based Text-to-Speech Synthesis
- URL https://research.google.com/pubs/pub45882.html
- Video https://www.youtube.com/watch?v=nsrSrYtKkT8

音響分野におけるブラインド適応信号処理の展開
- URL https://www.slideshare.net/kame_hirokazu/kameoka2017-ieice03ver2-73894508

音声信号の分析と加工 ― 音声を自在に変換するには？
- URL https://drive.google.com/open?id=0B8UaDFgTTWodU0c2N2hFZWV0THc

音声変換技術の進展と課題
- URL https://drive.google.com/open?id=0B8UaDFgTTWodV3k1TkE3MlpKdmc

Website

Fantastic GANs and where to find them
- URL http://guimperarnau.com/blog/2017/03/Fantastic-GANs-and-where-to-find-them

2016-10-19

Eddingtonの『Space, Time and Gravitation』がProject Gutenbergから無料で読めるのでメモ

物理

Project Gutenbergの以下より。
https://www.gutenberg.org/ebooks/29782

ちなみに、Project Gutenbergとは：
プロジェクト・グーテンベルク（Project Gutenberg、略称PG）は、著者の死後一定期間が経過し、（アメリカ著作権法下で）著作権の切れた名作などの全文を電子化して、インターネット上で公開するという計画。
プロジェクト・グーテンベルク - Wikipedia

2016-10-01

深層学習系の論文の勉強メモを公開している人がいらっしゃったのでメモ

以下より。
github.com

私も勉強不足を痛感して日々勉強。

2016-09-25

RNNに関するコード、各応用分野（CV, NLPなど）における論文などのリソースを集めたサイト『Awesome Recurrent Neural Networks』

深層学習

以下のサイト。
github.com
コードは最近の深層学習系パッケージなら入っているからいいとして、論文のまとめはありがたい。

このリストの作者は、以下のCV系深層学習の論文関連情報のサイトもメンテしている；
github.com

2016-09-24

RNN に関するニューラルネットの最新手法をTensorFlowで実装している人がいた

深層学習

以下のリポジトリ。
github.com

既実装は以下：

Highway Networks
Recurrent Highway Networks
Multiplicative Integration Within RNNs
Recurrent Dropout
Layer Normalization
Layer Normalization & Multiplicative Integration
LSTM With Multiple Memory Arrays
Minimal Gated Unit RNN
GRU Mutants
Weight Tying

使ってみる価値はあるかも。時間の節約。

2016-09-24

Recurrent Batch NormalizationをTensorFlowで実装した

深層学習

要するにLSTMの内部でバッチ正規化を行うということ。

論文と実装は以下の通り。

Tim Cooijmans, Nicolas Ballas, César Laurent, Çağlar Gülçehre, Aaron Courville, "Recurrent Batch Normalization, " arXiv preprint, 2016. https://arxiv.org/abs/1603.09025
実装

本実装は以下の先行実装に依拠しており、ここに感謝する次第である。

前者はTensorFlow実装、後者はTheano実装であるが、前者は後者を参考にして実装された。本実装はさらに前者の実装に対して自分用に手を加えたということである。なおTensorFlow 0.10でのみ動作確認をしている。

本実装ではBN_LSTMCellクラスが定義されている。使い方の注意点は、BN_LSTMCellのインスタンスを作成する際、引数に'is_training'を取るということである。これはバッチ正規化に関して、学習時と評価時で振る舞いを変えるためのものである。より具体的に言うと、学習時には各ミニバッチについて統計量（平均と分散）を計算してバッチ正規化を行う必要があるのだが、評価時の各ミニバッチに対しては改めて統計量を計算する必要はなく、学習データ全体から求められる確定した統計量に基づいてバッチ正規化を行うのである。

今後はGRUやSGU, MGUなどにrecurrent batch normalizationを実装する予定である。

2016-09-24

TensorFlowのRNN系関数群を色々と強化するライブラリ『Project RNN Enhancement』

深層学習

Project RNN Enhancement、ということらしい：
github.com

作者はSeq2Seqへの応用を念頭に置いているらしいが。