107 search resultsShowing 1~20 results

Stocked

KLダイバージェンスと交差エントロピーは何が違うのか?

KLダイバージェンスの記事を書いたあとに、かなり高確率で出てくる次の疑問があります。 「じゃあ、KLダイバージェンスと交差エントロピーって何が違うの?」 どちらも分布のズレっぽいし、分類の損失関...

1
0
Comment0

Wasserstein距離はなぜKLダイバージェンスより直感的なのか?

KLダイバージェンスを学ぶと、かなり早い段階で次の疑問が出てきます。 「分布のズレを測りたいのに、KLは“近いズレ”と“遠いズレ”をうまく区別していないように見えるのはなぜ?」 この記事では、ダ...

1
0
Comment0

過学習とデータリークは何が違うのか?CVが良すぎるときに疑うべきこと

機械学習を学び始めると、過学習とデータリークがごちゃごちゃになりやすいです。 どちらも「学習時はうまくいっているように見えるのに、本番では外れる」という意味では似ています。 でも、原因はまったく...

0
1
Comment0

次元削減で「情報を捨てる」とは何を捨てることなのか

この記事でやること 次元削減について説明するとき、よく次のような言い方をします。 次元削減は、なるべく大事な情報を残しながら、不要な情報を捨てる処理です。 ただ、この「情報を捨てる」とは、具体的...

0
0
Comment0

シンプルな microGPT を十分学習させると、教えていない足し算があとから解けるようになる modular addition で grokking を観察する

この記事では、とても小さい GPT 風の Transformer(microGPT) を使って、 訓練データでは早く正解できるようになるのに 訓練で教えていない足し算は、かなり遅れてから解けるよ...

1
0
Comment0

2025年度版:新谷正嶺(新谷研究室)のQiita記事 総まとめ・リンク集

この記事は、@Seine_A_Shintani(新谷正嶺 / 中部大学 新谷研究室)が2025年度にQiitaで公開した記事を、分野別にたどりやすく整理したリンク集です。 2025年度は、以下の...

0
0
Comment0

ブートストラップは何を「近似」しているのか:ダミーデータで標本分布を見てみる

はじめに 「ブートストラップ法」という言葉を初めて聞くと、次のような疑問が出てきやすいと思います。 ブートストラップは、いったい何を近似しているの? 結論から言うと、ブートストラップが近似してい...

0
0
Comment0

Perplexityが低いと何が嬉しいのか?ダミーデータで直感する

はじめに LLMや自然言語処理の話を読んでいると、よく Perplexity という指標が出てきます。 日本語では「困惑度」と訳されることもありますが、最初に見ると少し分かりにくい指標です。 こ...

1
1
Comment0

Jensen-ShannonダイバージェンスはKLダイバージェンスの何を直したのか?「向き」と「無限大」の解消

KLダイバージェンスを学ぶと、かなり早い段階で次の疑問が出てきます。 「KLダイバージェンスは便利そうだけど、向きを変えると値が変わるし、0確率で無限大になるし、ちょっと扱いづらくない?」 その...

0
0
Comment0

p値と信頼区間は何が違うのか?ダミーデータで直感的に理解する

統計や機械学習の本を読んでいると、 p値が 0.05 未満なら有意 95%信頼区間が 0 をまたがなければ有意 のような説明が出てきます。 ここでよく起きる混乱が、 結局、p値と信頼区間って何が...

3
6
Comment0

尤度と確率は何が違うのか?ダミーデータで直感的に理解する

統計や機械学習を学び始めると、「尤度(likelihood)」と「確率(probability)」が似たように見えて混乱しがちです。 実際、数式の形はかなり似ています。 でも、見ている向きは逆で...

22
22
Comment0

過学習はなぜ“訓練が上手い”のに困るのか

はじめに 機械学習を勉強していると、よく 過学習 という言葉が出てきます。 過学習は、ざっくり言うと 訓練データにはとてもよく合っているのに、未知のデータにはうまく対応できない状態 です。 一見...

0
2
Comment0

交差エントロピーはなぜ“誤差”として自然なのか?

分類モデルを学び始めると、かなり早い段階で 交差エントロピー(cross entropy) が出てきます。 でも、「式は見たことあるけど、なぜこれが“誤差”として自然なのかはまだ腹落ちしていない...

1
0
Comment0

KLダイバージェンスはなぜ距離ではないのか?

「KLダイバージェンスって、分布の距離みたいなものですよね?」 この言い方、直感としてはかなり近いのですが、数学的には正確ではありません。 この記事では、ダミーデータを使って KLダイバージェン...

1
0
Comment0

ダミーデータで身につけるブラウン運動解析:軌跡→変位分布→MSD→拡散係数→ドリフト補正

本記事は、ブラウン運動(Brownian motion)する粒子の「位置データ(軌跡)」が手元にあるとき、まずやるべき“鉄板解析”を ダミーデータから作って 一通り実装します。 2次元軌跡の可視...

0
0
Comment0

microgptを日本語データに差し替えると何が起きる?文字単位Tokenizerの罠を最小実験で確認

microgptを触って「動いた!」までは良いけど、日本語データに差し替えた瞬間に 遅くなる / lossが下がりにくい / 出力が変 に見えて困ることがあります。 この記事では、Karpath...

2
0
Comment0

107 search resultsShowing 1~20 results

Qiita is a knowledge sharing service for engineers.

  1. You can follow users and tags
  2. You can stock useful information
  3. You can make edit suggestions for articles
Functions that can be used after logging in