はじめに
はじめまして、Udemy で講師をしている Maruchin Tech です。
この度、以前から薄々感じていた「Udemyの評価はだいたい 4.2 くらいに収束する」という仮説を検証してみました。
ちなみに講師(私)は AWS をはじめとしたパブリッククラウドや製造業・SCM に関する教育コンテンツを Udemy で展開しております。レビューが1万近くなった頃からこの傾向に気付きました。以下は講師のリンクです。
① 仮説
私の出しているコースの平均評価は、現在 4.2 ~ 4.3 あたりを行ったり来たりしています。日々レビューに一喜一憂しつつ、過去の自分のコースの推移や、他の有名講師のコースの数値を眺めているうちに、ひとつの「法則」に気付きました。
【仮説】
日本語圏の Udemy 人気講師(レビュー多数)の評価は、最終的に 4.2 ~ 4.4 に収束する。
リリース直後は、ありがたいことにファンや熱心な受講生が高評価(5)を付けてくれるため、評価は 4.8 など高水準になります。しかし、受講生が増えて一般層にまで広く届くようになると、評価は徐々に下がり、最終的に約 4.2 付近でピタッと止まるのです。
これは私のコースに限らず、ベストセラーを出している他の人気講師にも共通して見える現象でした。本当にそうなのか、複数の AI(Claude、Copilot、Grok、Gemini)でデータ分析し、定量・アルゴリズム両面から検証してみました。
仮説の根拠として、当初想定していた理由(クリックで展開)
- リリース直後はファンが高評価をする
- レビュー母数が少ないため、評価の上下が大きい
- 時間が経つにつれ平均的なレビューが増え、4.2 程度に収束する
- 日本人は 5 段階のうち 3 〜 4 を付けやすい
- 英語圏と比べ 5 評価の割合が少ないため、英語圏は 4.5、日本語圏は 4.2 に収束する
- これは分野問わずすべての講師・コースに共通する
② 仮説の検証
1. 定量データが示す日英の「評価の壁」
まず、Udemy 公式ページや Udemy Japan の公式 note などから、レビュー件数 1,000 件以上の日本語コースを「人気コース」として抽出し、平均評価を集計しました。
日本語圏 人気コース(レビュー件数 1,000 件以上)
| コース | 分野 | レビュー数 | 評価 |
|---|---|---|---|
| 独学で身につける Python(安井亮平) | Python | 14,128 | ★ 4.5 |
| 現役シリコンバレーエンジニアが教える Python 3(酒井潤) | Python | 25,219 | ★ 4.2 |
| 実践 Python データサイエンス(Pierian/Tsuji) | Python/DS | 8,145 | ★ 4.2 |
| 絶対に挫折させない Python 入門(小山内美悠) | Python | 2,781 | ★ 4.0 |
| はじめてのクラウド入門 | AWS | 8,936 | ★ 4.2 |
| AWS 認定 SAA 完全攻略 | AWS | 1,275 | ★ 4.2 |
| Excel VBA 第 1 弾(エクセル兄さん) | Excel/VBA | 10,664 | ★ 4.4 |
集計結果:平均 4.24・中央値 4.20・標準偏差 0.16
仮説通り、4.2 付近です。
英語圏 超人気コース(比較対象)
| コース | レビュー数 | 評価 |
|---|---|---|
| 100 Days of Code: Python(Angela Yu) | 424,359 | ★ 4.7 |
| Complete Python Bootcamp(Jose Portilla) | 約 400,000 | ★ 4.6 |
| Python for Data Science & ML Bootcamp | 158,710 | ★ 4.6 |
| Complete Python Bootcamp 2026(Haris Ali Khan) | 14,583 | ★ 4.6 |
| The Complete Data Structures and Algorithms Course | 11,339 | ★ 4.6 |
集計結果:平均 4.63・中央値 4.60
英語圏では明らかに評価分布が違います。仮説の「英語圏は 4.5、日本語圏は 4.2 に収束」という主張は、ほぼそのまま現実の数字として現れていました。
📊 日本語圏(◯)が 4.2 付近に集中し、英語圏(△)が 4.6 〜 4.7 付近に集中する様子は、散布図で見ると一目瞭然です(点線は Udemy ベストセラー条件の閾値 4.2)。
2. 「ベストセラー」バッジの知られざる公式条件
「では、なぜ評価は下がり続けず、4.2 付近に収束するのか?」
まず、ひとつの理由は日本人の評価傾向だけではなく、Udemy のアルゴリズムによる足切りにあります。Udemy でコースのベストセラーの取得条件には以下です。
ベストセラーバッジの公式条件
- 主要トピック × カテゴリの組み合わせの中で、最近の販売数が最も多い
- コース平均評価が 4.2 以上
つまり、「人気コース」と認識される定義そのものに 4.2 という下限が組み込まれています。つまり、4.2 以上をキープできたコースだけが露出を保ち、結果的に「人気コース」として生き残るーーという生存バイアスがかかります。
3. 初期評価をリセットする「直近レビュー重視」の仕組み
さらに、Udemy の評価計算式もこの収束を後押ししています。
Udemyの評価計算の仕組み
Udemy の評価は単純な全期間の平均ではなく、直近 90 日・直近 50 件のレビューを、エンゲージメント(視聴時間や文章量)で加重平均して計算される。
これにより、リリース初期に集まったファンによる「5」の評価は、数ヶ月経って一般層が流入すると急速に計算上の影響力を失い、評価が安定する挙動を引き起こします。
実例として、人気講師の酒井潤氏のコース「現役シリコンバレーエンジニアが教える Python 3」は、2018 年時点では 4.4 だったのが、2026 年時点でレビュー 25,000 件超・評価 4.2 まで降りてきています。仮説の「リリースから時間が経つにつれ収束する」という挙動が、現実のコースで確認できました。
参考:Udemy Course Reviews 101(公式)
4. 日本人の評価文化
また心理学的観点から、日本人の 「中心化傾向(Central Tendency Bias)」 という概念が補強されます。日本人は極端な評価(1 や 5)を避けて中間を選ぶ傾向が強く、これは食べログで 3.5 が「かなりの高評価」とされる現象と同じ構造です。
英語圏は「5 がデフォルト」の加点方式文化ですが、日本語圏は「完璧ではないから 4」という減点方式。同じ品質のコースでも、英語圏 4.6 〜 4.7、日本語圏 4.2 〜 4.4 に着地するのはこの文化差が大きいと考えられます。
補足:引用データについて
Udemy データセット(GitHub: analisto/udemy_com) を引用して「Udemy 全体の中央値は 4.47」と指摘しましたが、こちらは Kaggle で公開されている 2017-2018 年の英語コース約 3,700 件のスナップショットで、日本語コースは含まれていません。日本語圏 4.2 収束の直接的な証拠にはならないものの、英語圏全体の中央値が 4.47 という数値は、私が集計した英語圏人気コースの平均 4.63 と整合する補強データになりました。
また、日本語コースに関してはなるべくチェリーピッキングにならないように、日本語圏の人気講師(受講生数10万人以上)、人気コース(レビュー数 5,000以上)など多角的に見て、「おおよそ 4.2 ~ 4.4」とみています。
仮説の各要素の判定
| 仮説の要素 | 判定 | 根拠 |
|---|---|---|
| 日本語圏の人気コースは 4.2 程度に収束する | 支持 | 4 モデルとも肯定。実データ平均 4.24 |
| リリース直後はファンが高評価、母数増で収束 | 強く支持 | Udemy 公式の「直近 50 レビュー加重」仕様で機序まで裏付け |
| 日本人は 3-4 を付けやすい(中心化傾向) | 部分支持 | 心理学的に確立。Udemy 日本語データでの定量実証は未完 |
| 英語圏 4.5 / 日本語圏 4.2 という差 | 概ね支持 | 実データ:英語 4.63 vs 日本語 4.24(差 0.39) |
| 分野問わず全コース・全講師に共通 | 部分否定 | 超人気コースのみ。数百〜数千件規模では 4.5 以上も存在 |
③ 結論:「4.2」は人気と品質の生存証明である
検証の結果、私が感じていた仮説はおおむね事実であると確認できました。実際には、次の 3 つの力学が同時に作用 していることが見えてきました。
4.2収束を生む3つの力学
A. 日本人の評価文化(仮説の主張点)
中心化傾向によって 5 点評価が出にくく、ベースラインが英語圏より低い。英語圏との 0.4 ポイントの差を生む主因。
B. 直近重視アルゴリズム(仮説と整合)
直近 50 レビュー or 直近 90 日の加重平均で算出されるため、初期ファンの高評価は時間とともに一般層の評価に置換される。仮説の「リリース後の収束」というストーリーが公式仕様で裏打ちされた。
C. ベストセラー閾値による生存バイアス(仮説に欠けていた視点)
平均評価 4.2 を下回ったコースは露出を失い、「人気」と呼ばれなくなる。観察される「4.2 付近の張り付き」を支持する構造的要因。
ブラッシュアップした仮説
【検証後の仮説】
日本語圏の Udemy で超人気帯(レビュー数千〜数万件超)に到達したコースは、
- 日本人のレビューバイアス
- 直近 50 レビュー加重による初期ファン評価の希薄化
- ベストセラー条件 4.2 以上の生存バイアス
の 3 つが同時に作用して 4.2 〜 4.4 に収束する。英語圏では (1) が弱いため、同じプラットフォーム設計でも 4.6 付近に収束する。
Udemy 講師として、ここから言えること
英語圏のトップコースが 4.6 以上であるのを見ると、4.2 という数字に少し自信を失いそうになりますが、検証を経て、日本の厳しい評価文化の中で 4.2 を死守しているということは、「アルゴリズムの淘汰に耐え抜いた、間違いのない人気コース」という証明でもあるのです。
私自身、これからもこの 4.2 〜 4.3 の評価を、悲観でも楽観でもなく、「日本語圏のベストセラー水準」として淡々と受け止めて、コース品質に向き合っていこうと思います。
