音声/音楽生成・音響処理分野におけるEnd-to-End系の論文情報とか各種スライド情報とかを忘れないうちにメモ

なんだか最近、当該分野でEnd-to-End系の論文が急に増えたなぁということで、忘れないうちに自分用にメモ。面白そうな論文情報も含めて。もうね、正直言ってお腹いっぱいなんですけど、流れには逆らえないですね。ほとんどarXivなので、信頼性は担保されておらず、あくまで参考までに。気が向いたら一言コメントつけます。
音声認識系はあえて外しました。

Paper

  • MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions

GAN系でとりあえず以下。それにしてもGAN系の論文も、タケノコのようにポコポコ出てきますね。

以下も参考までに。

Website

Eddingtonの『Space, Time and Gravitation』がProject Gutenbergから無料で読めるのでメモ

Project Gutenbergの以下より。
https://www.gutenberg.org/ebooks/29782

ちなみに、Project Gutenbergとは:
プロジェクト・グーテンベルク(Project Gutenberg、略称PG)は、著者の死後一定期間が経過し、(アメリカ著作権法下で)著作権の切れた名作などの全文を電子化して、インターネット上で公開するという計画。
プロジェクト・グーテンベルク - Wikipedia

RNNに関するコード、各応用分野(CV, NLPなど)における論文などのリソースを集めたサイト 『Awesome Recurrent Neural Networks』

以下のサイト。
github.com
コードは最近の深層学習系パッケージなら入っているからいいとして、論文のまとめはありがたい。

このリストの作者は、以下のCV系深層学習の論文関連情報のサイトもメンテしている;
github.com

RNN に関するニューラルネットの最新手法をTensorFlowで実装している人がいた

以下のリポジトリ
github.com

既実装は以下:

  • Highway Networks
  • Recurrent Highway Networks
  • Multiplicative Integration Within RNNs
  • Recurrent Dropout
  • Layer Normalization
  • Layer Normalization & Multiplicative Integration
  • LSTM With Multiple Memory Arrays
  • Minimal Gated Unit RNN
  • GRU Mutants
  • Weight Tying

使ってみる価値はあるかも。時間の節約。

Recurrent Batch NormalizationをTensorFlowで実装した

要するにLSTMの内部でバッチ正規化を行うということ。

論文と実装は以下の通り。

本実装は以下の先行実装に依拠しており、ここに感謝する次第である。

前者はTensorFlow実装、後者はTheano実装であるが、前者は後者を参考にして実装された。本実装はさらに前者の実装に対して自分用に手を加えたということである。なおTensorFlow 0.10でのみ動作確認をしている。

本実装ではBN_LSTMCellクラスが定義されている。使い方の注意点は、BN_LSTMCellのインスタンスを作成する際、引数に'is_training'を取るということである。これはバッチ正規化に関して、学習時と評価時で振る舞いを変えるためのものである。より具体的に言うと、学習時には各ミニバッチについて統計量(平均と分散)を計算してバッチ正規化を行う必要があるのだが、評価時の各ミニバッチに対しては改めて統計量を計算する必要はなく、学習データ全体から求められる確定した統計量に基づいてバッチ正規化を行うのである。

今後はGRUやSGU, MGUなどにrecurrent batch normalizationを実装する予定である。