2022-09-16から1日間の記事一覧

Transformerの学習率を調整するSchedulerクラスをPyTorchで書いた

はじめに Attention is All You Needという論文で「warmup & ステップ数の逆平方根で学習率を減衰」させる学習率スケジューリングが提案されたが、そのようなスケジューリングを手軽に行うスケジューラを書いたということである。 ソースコード from torch.o…