Python で代数的データ型の設定ファイルを使う
はじめに Deep Learning 関連の実験をしていて、常々、python で代数データ型での設定ファイルの型チェックをしたいという欲求がありました。もう結構長いので自分で書けよという話では...
14 search resultsShowing 1~14 results
You need to log-in
はじめに Deep Learning 関連の実験をしていて、常々、python で代数データ型での設定ファイルの型チェックをしたいという欲求がありました。もう結構長いので自分で書けよという話では...
はじめに 2025年7月現在、私が把握している限り最も性能が良い Optimizer である Scion を紹介します。 情報源 まず公式の実装へのリンクを記します 次に論文へのリンクを記します...
はじめに 活性関数として $ReLU^2$ が良いらしいと聞いたので試してみました。 $ReLU^2$ は単純に ReLU を適用した後に二乗する処理になります。 斜め読みした論文は以下の通りで...
はじめに 以前、以下の記事で固定学習率 + EWA の性能が良いと述べました。 実際に実行してみたところ、最終的な性能では ScheduleFree よりも良い結果になりました。しかしながら、序...
はじめに Ubuntu で Vivaldi と vscode を使っているのですが、気づいたらなんか apt で更新されなくなっていたので対応しました。 # たぶんメジャーバージョンをあげた時だ...
はじめに 前回の ADOPT の記事で RAdam を強く推したのですが、一般的に RAdam は使われていません。RAdam が学習率のスケジューリングと干渉して使いづらい点が広く使われない原...
はじめに 最近(2024年11月頃)発表された Adam 系の最適化機である ADOPT について色々遊んでみた結果です。 ADOPT とは ADOPT は最近(2024年11月頃)発表された ...
はじめに 最近、AdEMAMix という長期の勾配情報を利用する手法が提案されていました。 色々と違いはありますが、長期の勾配情報を利用する手法は過去にいくつか提案されているため、今後類似の手法...
はじめに Depthwise Convolution を使った実験を以前行いました。 その中で Depthwise Convolution についていくつか気になる点があったため、まとめます。 ...
はじめに 最近、論文を読んでいたところ、Gated Linear Unit(GLU)がちらほら利用されていました。 具体的には以下の論文になります。 Do Transformer Modific...
はじめに 定期的に VAE の新しい論文が公開される昨今いかがお過ごしでしょうか 今年も新しい VAE 論文が公開されました。URLは以下のとおりです。 https://arxiv.org/ab...
AdaBelief の謎 eps 最近、新しい Optimizer として AdaBelief が発表されました。 AdaBelief の更新式は以下になります。 m_0, v_0 \gets ...
ResNet に関する細かい話の備忘録です。 ResNet ResNetの提案論文は以下になります。 https://arxiv.org/abs/1512.03385 PreAct ResNet...
疑問 ある日ふと思いました。 WGAN-GPのGradient Penaltyは非連続関数の最適化をしてるのではないかと WGAN-GP損失関数に以下のような Gradient Penalty ...
14 search resultsShowing 1~14 results
Qiita is a knowledge sharing service for engineers.