MGUとかSGUといったLSTMの簡略化版をTensorFlowで実装した

それぞれは以下の通り（ただしTensorFlow 0.12でのみ動作確認）：

MGU (Minimal Gated Unit)
- 論文 Minimal gated unit for recurrent neural networks
- 実装 An implementation for MGU based on TensorFlow. · GitHub

S-LSTM (Simplified LSTM)
- 論文 [1601.02539] Investigating gated recurrent neural networks for speech synthesis
- 実装 An implementation of Simplified LSTM (S-SLTM) based on TensorFlow. · GitHub

SGU (Simple Gated Unit)
- 論文 Deep Gate Recurrent Neural Network
- 実装 An implementation of SGU (Simple Gated Unit) and DSGU (Deep SGU) based on TensorFlow. · GitHub

Delta RNN
- 論文 [1703.08864] Learning Simpler Language Models with the Differential State Framework
- 実装 An implementation of Delta RNN in TensorFlow · GitHub

SRU (Simple Recurrent Unit)
- 論文 [1709.02755] Training RNNs as Fast as CNNs
- 実装 A TensorFlow implementation of Simple Recurrent Unit (SRU). · GitHub

MinimalRNN
- 論文 [1711.06788] MinimalRNN: Toward More Interpretable and Trainable Recurrent Neural Networks
- 実装 A TensorFlow implementation of MinimalRNN. · GitHub

これらは基本的にLSTMの構造を簡略化して、ゲートやパラメータ（重み行列）の数を減らしている。例えばMGUはLSTMの約半分のパラメタ数になっている。こうすることで可視化や解析がしやすくなったり、学習時間やデコードの時間が減らせるので嬉しい。また、パラメタ数削減によりL1正則化と類似した効果も期待できるだろう（ホントに？）。ちなみに上記論文で比較対象に挙がっているGRU (Gated Recurrent Unit) はパラメタ数的にLSTMの約3/4になっている。

LSTMの各構成要素（ゲートとか）のうち、どれが一番性能が効くのか、ということをきちんと調べた論文は以下が挙げられる。

これら論文によれば、性能を一番左右するのはForget gateだそうで、またForget gateのbiasは1.0にすると良いらしい。TensorFlowにおけるLSTM実装は既にそうなっている。上記各ネットワークアーキテクチャにおいて、簡略化されても残るのはForget gateの機能だったりする。