KLダイバージェンスと交差エントロピーは何が違うのか?
KLダイバージェンスの記事を書いたあとに、かなり高確率で出てくる次の疑問があります。 「じゃあ、KLダイバージェンスと交差エントロピーって何が違うの?」 どちらも分布のズレっぽいし、分類の損失関...
107 search resultsShowing 1~20 results
You need to log-in
KLダイバージェンスの記事を書いたあとに、かなり高確率で出てくる次の疑問があります。 「じゃあ、KLダイバージェンスと交差エントロピーって何が違うの?」 どちらも分布のズレっぽいし、分類の損失関...
KLダイバージェンスを学ぶと、かなり早い段階で次の疑問が出てきます。 「分布のズレを測りたいのに、KLは“近いズレ”と“遠いズレ”をうまく区別していないように見えるのはなぜ?」 この記事では、ダ...
機械学習を学び始めると、過学習とデータリークがごちゃごちゃになりやすいです。 どちらも「学習時はうまくいっているように見えるのに、本番では外れる」という意味では似ています。 でも、原因はまったく...
この記事でやること 次元削減について説明するとき、よく次のような言い方をします。 次元削減は、なるべく大事な情報を残しながら、不要な情報を捨てる処理です。 ただ、この「情報を捨てる」とは、具体的...
Transformer を勉強し始めると、よく 「attention は重要な単語を見る」 「文脈を集める」 「関連する単語に注目する」 のような説明に出会います。 ただ、ここで一度つまずきます...
この記事では、とても小さい GPT 風の Transformer(microGPT) を使って、 訓練データでは早く正解できるようになるのに 訓練で教えていない足し算は、かなり遅れてから解けるよ...
標準偏差と標準誤差がどちらも「ばらつき」っぽく見えて混乱しがちです。 実際、名前も似ています。 標準偏差: standard deviation 標準誤差: standard error でも、...
この記事は、@Seine_A_Shintani(新谷正嶺 / 中部大学 新谷研究室)が2025年度にQiitaで公開した記事を、分野別にたどりやすく整理したリンク集です。 2025年度は、以下の...
はじめに 「ブートストラップ法」という言葉を初めて聞くと、次のような疑問が出てきやすいと思います。 ブートストラップは、いったい何を近似しているの? 結論から言うと、ブートストラップが近似してい...
はじめに LLMや自然言語処理の話を読んでいると、よく Perplexity という指標が出てきます。 日本語では「困惑度」と訳されることもありますが、最初に見ると少し分かりにくい指標です。 こ...
KLダイバージェンスを学ぶと、かなり早い段階で次の疑問が出てきます。 「KLダイバージェンスは便利そうだけど、向きを変えると値が変わるし、0確率で無限大になるし、ちょっと扱いづらくない?」 その...
統計や機械学習の本を読んでいると、 p値が 0.05 未満なら有意 95%信頼区間が 0 をまたがなければ有意 のような説明が出てきます。 ここでよく起きる混乱が、 結局、p値と信頼区間って何が...
統計や機械学習を学び始めると、「尤度(likelihood)」と「確率(probability)」が似たように見えて混乱しがちです。 実際、数式の形はかなり似ています。 でも、見ている向きは逆で...
はじめに 機械学習を勉強していると、よく 過学習 という言葉が出てきます。 過学習は、ざっくり言うと 訓練データにはとてもよく合っているのに、未知のデータにはうまく対応できない状態 です。 一見...
この記事は、自著 arXiv 論文 Arithmetic OOD Failure Unfolds in Stages in Minimal GPTs の内容を、Qiita 読者向けにできるだけ分...
分類モデルを学び始めると、かなり早い段階で 交差エントロピー(cross entropy) が出てきます。 でも、「式は見たことあるけど、なぜこれが“誤差”として自然なのかはまだ腹落ちしていない...
「KLダイバージェンスって、分布の距離みたいなものですよね?」 この言い方、直感としてはかなり近いのですが、数学的には正確ではありません。 この記事では、ダミーデータを使って KLダイバージェン...
本記事は、ブラウン運動(Brownian motion)する粒子の「位置データ(軌跡)」が手元にあるとき、まずやるべき“鉄板解析”を ダミーデータから作って 一通り実装します。 2次元軌跡の可視...
Transformerを読んでいると RMSNorm が出てきて「LayerNormと何が違うの?」「置き換えたらどうなるの?」となりがちです。 この記事では microgpt(200行のGPT...
microgptを触って「動いた!」までは良いけど、日本語データに差し替えた瞬間に 遅くなる / lossが下がりにくい / 出力が変 に見えて困ることがあります。 この記事では、Karpath...
107 search resultsShowing 1~20 results
Qiita is a knowledge sharing service for engineers.