0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

生成AIのAtCoderBeginnerContestへの影響分析まとめ

Last updated at Posted at 2025-08-29

(前置きは長いので適当に飛ばしてください。本編はしばらくしてはじまります)
(ちなみに本編も失禁するほど長いです、たぶん媒体間違えてます)

私は間違っていました。まずは反省から始めましょう。

仮に不正erのせいでレートが50以上落ちた事実が証明できたとしても、その事実はあなたの真の実力を上げも下げもしないのです。

さらにはAIインフレの存在を声高に主張する事自体が"皆がAIを使っている"という認識を刷り込み不正を助長しうるため、AtCoderを愛するならばAIインフレのせいにしたい気持ちを押し殺してそのレート低下をただひたすらに自戒し精進するのが今は最適解なのです。

ただしクソカス不正erを絶対に許してはなりません、見つけ次第あらゆる手段で徹底的に屠りなさい。

そして承認欲求餓鬼共に不正インセンティブを与えないために画面&手元録画無きレートの社会的価値をゼロとみなしなさい(ただしこれは録画無きレートの主観的価値を否定するものではありません)。

さて懺悔が終わりました。私はこれまでAtCoderBeginnerContest(以下ABC)への生成AIの影響を、寒色のパフォーマンス、difficultyデフレの2つの切り口で分析してきました(生成AIはAtCoderBeginnerContestを実際に破壊しているのか生成AIはAtCoderBeginnerContestのインフレを加速させたか)。どちらの記事もAI推論モデル以降破壊されているように見えてしまうABCを感覚ではなく数字(というか統計)で分析しようとした記事でしたが、私は気付いてしまったのです。運営が可能な限りの対応をしている中、これらの記事はAI後にレートが下がっている人の慰めにはなるかも知れないがその反面AIインフレの存在を喧伝することで実は不正を助長し、結局は愛するAtCoder社に迷惑をかけているのではないかと。研究者の端くれとして、興味を持った社会的課題を分析しその結果を世に発信することは正義に適うと考えていましたが、流石に自責の念が浮かぶようになりました。
というのもchokudai社長が頑張ってAIインフレの影響が殆ど見られないことを証明しようとしているのを見て、これは実質いわゆる悪魔の証明では?と感じてしまい、私のような結果がたまたま出ただけの可能性のある分析を発布することや「〇〇と〇〇はほぼ同じ問題なのに3年でdifficultyが500低下しているから平時よりもインフレ速度が早まった」という主張などは非対称なゲリラ攻撃にあたるのではないかと。
そしてそういったAIインフレ主張をして得をする人間は実は誰もいないのです。不正をしていない人は慰められこそすれやる気を失うか、レート低下を避けるため不正に手を染めるようになります。不正を既にしている人はより不正のハードルが下がります。AtCoder社はレート価値が毀損しているという印象付けによりスポンサーや利益を失います。勿論不正erが諸悪の根源ではあるのですがね(なので不正erは徹底的にぶち殺されねばならないのです)。

というわけでAIインフレを声高に主張してきた過去の分析を自身で再検証し、「生成AIの影響が無いとは言わないが皆が考えているほど実は大きくはない(社長の言う通り中国人参加増の影響が無視できなさそう、そして中国人は皆が思うほど不正をしていない)。AIの影響は大体パフォでもdiffでも数十からどれだけ大きくても100未満だから不正していない人は心のなかでその数字を足し今後も不正をしないようにしよう。そして不正erは徹底的に嬲り殺そう。あと国内レートは切り離して、ついでにBAN罪人に吸われたレートの還元もお願いします。」という主張をまとめんとします。

分析すべき課題の整理(本編はじまり)

個人的に興味がありかつ結果を出すことが可能な課題は

  1. 生成AIのレートへの影響
  2. difficultyデフレの度合い
  3. 国内プレイヤーと海外プレイヤーの不正率の差(レート変化量の分散比較)
  4. こっそり使用の実態(正答率比較)

前2項は過去の分析のおさらいと付け足し、後2項は今回追加したものです。データは最初版の1以外つまり2および今回の追加解析ではAtCoder社様が公開しているjsonファイル(例:abc420resultsABC420standings)を使っています。
書いているうちに段々中国あげ要素が入ってしまいましたが私の名前は反逆者平将門が子孫「相馬」の氏であり、中国は好きでも嫌いでもありません。ただ電子工作が好きな手前、amazonの激安電子基盤やaliexpressには正直滅茶苦茶感謝してます。

結果概略

タイパ重視の若者のためにすべての結果と個人的解釈を先にまとめておくと

  • 3年以上レート減衰に抗っている長期レート安定者52名(800-1999、継続して参加、パフォーマンス標準偏差300未満、山形推移でない)で4o以降、統計上-50〜100のパフォーマンス低下がある。(4oで50、o3で50低下があるように私には見える)

performance_barplot.png
performance_timeseries.png

  • difficlutyデフレからインフレの程度を調べる手法は、difficulty自体が前の問題のdifficulty等の複合的な要因に影響を受けるノイズの多い指標であり、また仮に新規参加者によりインフレが起きたとしても長期的には彼らのレートが上がり結果が均されるため、限界が大きい
  • AI無料推論モデル以降レート変動のばらつきは大きくなっているが、主に日本人中国人以外のレート1000未満の有象無象の外人の中に急激にレートを伸ばした者が居ることによると考えられる。推論モデル以降急激に1万人増えた中国人だが、分散は大きくなるどころか小さくなっておりまた全体としてレートが上がっているわけでもなく、ある程度均質な新規集団が急激に流入したがその成長速度は早いとは言えず、また既存集団より実力が高いとも言えない。ただしABC411以降、中国でもばらつきが急拡大しており、一部人口の急激なレート上昇があるよう。なおすべて書き終わってから気づいたが4o後(ABC354-)にも全く同様の推移(日中以外の分散増のち中国の分散増)が見られている

rating_abs_deviation_plot_japan.png
rating_abs_deviation_plot_china.png
rating_abs_deviation_plot_other.png

  • AI後に正答率(=AC者数/提出者数)のあからさまな上昇はみられない、これは万国共通。案外こっそり使用は多くないのかも

country_trends_jp.png

1. レートへの影響

まずこれは第一号記事として私が出したものですが、
Figure_2.png

要約すると「2023年以降常にレートが1000以上 かつ 2025年3月2日時点のレートが1000-1999 かつ コンテスト参加回数が100回以上 かつ 5つの調査対象期間すべてで3回以上参加 を満たす長期安定中級ユーザーを対象に、AI後とAI前のレート変動の平均を比較した結果、o3リリース後にレート変動の負方向への変化が見られた」

です。方法論として筋自体は悪くない分析ですが重大な問題が回避できていません。

一般に同実力の場合レートには年50-100の減衰がかかるとされており(これがコンセンサスというのを知らず手法に盛り込めなかった)、その減衰をただ見ているだけの可能性、とくに2年という調査期間を考えればレート推移が山形となっており山の上の部分と下の部分を比較しただけではないかという疑義に反論できないのです。また、別にレート変動で調べずとも普通に毎回のパフォーマンスで調べればよいのです。

というわけで上記2点を修正した解析を行うことにしました。まずすぐにできるパフォーマンス版の結果から。
performance1.png
まあこれは流石に同様の結果ですね。やはりパフォーマンスが50強不当に低くなっているという結論です。こちらのほうが断然わかりやすいのになぜレート変化量を対象にしたのか…脳がバグってたんだと思います。

では肝心のインフレ減衰考慮版

この解析方法は2通りあると考えられます。一つは過去のレート推移からパフォーマンスの予測モデルを作る方法、もう一つは山形の推移を排除し厳密な意味での長期パフォーマンス安定者のみに解析対象を絞る方法。予測モデルは便利なのですが怪しさを伴うため後者をとります。Geminiと相談して以下の要件でまとまりました。

  • ABC212以降で100回以上Rated参加している
  • ABC212-291で40回以上、ABC292-370で40回以上、ABC391-420で15回以上参加している(満遍なく参加している)
  • レートおよびパフォーマンスが長期間安定している
    • ABC212以降レートが常に800-1999
    • 標準偏差が300未満
    • (ABC212-291のパフォーマンス平均 < ABC292-370のパフォーマンス平均) かつ (ABC292-370のパフォーマンス平均 > ABC391以降のパフォーマンス平均) となるような山形推移を認めない(章の最後に追記しましたが、これABC391以降が条件に含まれ手法的に怪しいのでABC212-291と292-370でパフォ平均差100未満でも調べてます)

上記すべてを満たす52人を厳密な意味での長期パフォーマンス安定者とし、abc370以前の期間のパフォーマンスとabc391以降のパフォーマンスで対応のあるt検定を行いました。

(解析コード)

performance_barplot.png
performance_timeseries.png

--- AtCoder パフォーマンス変化分析レポート ---

【1. 分析対象者の抽出プロセス】
全参加者: 243396名
レート対象コンテスト(IsRated=True)に参加した参加者: 199697名

以下の条件で絞り込みを実施:
--------------------------------------------------
ステップ1: レート範囲の安定
  - 条件: 全てのレート対象参加回でNewRatingが 800以上2000未満
  - 該当者数: 7706名 (除外: 191991名)
--------------------------------------------------
ステップ2: パフォーマンスの安定
  - 条件: 全てのレート対象参加回でPerformanceの標準偏差が 300未満
  - 該当者数: 3352名 (ステップ1からさらに 4354名除外)
--------------------------------------------------
ステップ3: 長期的な参加
  - 条件1: レート対象の総参加回数が 100回以上
  - 条件2: abc292以前のレート対象参加回数が 40回以上
  - 条件3: abc292-abc370のレート対象参加回数が 40回以上
  - 条件4: abc391以降のレート対象参加回数が 15回以上
  - 該当者数: 117名 (ステップ2からさらに 3235名除外)
--------------------------------------------------
ステップ4: パフォーマンス推移の形状
  - 条件: パフォーマンスがキャリア中期に突出する「山型」ではない (threshold=0)
  - 該当者数: 52名 (ステップ3からさらに 65名除外)
--------------------------------------------------

最終分析対象者数: 52名


【2. 統計検定の結果】


--- 比較: abc339-368 vs abc391-420 ---
調整後の総データ数: 1230件

  [平均値の差検定(対応のあるt検定)]
  abc339-368 平均パフォーマンス: 1380.82
  abc391-420 平均パフォーマンス: 1289.51
  t統計量: 8.8919
  p値: 0.0000
  ⇒ 結論: 2期間のパフォーマンスの平均値に、統計的に有意な差があると言えます。

  [分散の均質性検定(ルビーン検定)]
  abc339-368の分散: 106901.58
  abc391-420の分散: 103327.35
  統計量: 2.5675
  p値: 0.1092
  ⇒ 結論: 2期間のパフォーマンスのばらつきに、統計的に有意な差があるとは言えません。


--- 比較: abc288-317 vs abc391-420 ---
調整後の総データ数: 1060件

  [平均値の差検定(対応のあるt検定)]
  abc288-317 平均パフォーマンス: 1384.44
  abc391-420 平均パフォーマンス: 1279.31
  t統計量: 9.1576
  p値: 0.0000
  ⇒ 結論: 2期間のパフォーマンスの平均値に、統計的に有意な差があると言えます。

  [分散の均質性検定(ルビーン検定)]
  abc288-317の分散: 120507.17
  abc391-420の分散: 105283.61
  統計量: 6.7786
  p値: 0.0093
  ⇒ 結論: 2期間のパフォーマンスのばらつきには、統計的に有意な差があると言えます。


--- 比較: abc238-267 vs abc391-420 ---
調整後の総データ数: 1237件

  [平均値の差検定(対応のあるt検定)]
  abc238-267 平均パフォーマンス: 1422.48
  abc391-420 平均パフォーマンス: 1293.35
  t統計量: 12.2394
  p値: 0.0000
  ⇒ 結論: 2期間のパフォーマンスの平均値に、統計的に有意な差があると言えます。

  [分散の均質性検定(ルビーン検定)]
  abc238-267の分散: 118341.94
  abc391-420の分散: 107143.52
  統計量: 4.9087
  p値: 0.0268
  ⇒ 結論: 2期間のパフォーマンスのばらつきには、統計的に有意な差があると言えます。

Discussion

どう解釈するかは皆さんに委ねるのが正解だと、懺悔を終えた私は考えていますが私の解釈はこうです。

  • やはりマイナス50~100のレートへの影響があるように見えるものの、推移を見れば山形の推移を完全に排除できているとは断言できず、また52というサンプル数は十分多いとは言い難いため、丸々50~100の影響があるとは言いづらい
  • 長期安定ユーザー52名に関してはo3以降で分散が縮小傾向にあるが、
    • AI不正er出現により、AIをあまり使用しなかった彼らはパフォーマンスが下向きに圧縮され分散が減少した
    • AIこっそり使用により激冷えがおこらなくなり分散が減少した

 いずれの解釈も可能。普通にパフォーマンス自体は減っているので、私としては前者の可能性が高いと考えている。

  • ただしchokudai社長の唱える「成長の早い中国10代急速流入仮説」でもこの結果は出現しうるため、AI推論モデルによる変化と結論付けるのは困難(これについては3章でケアします)
  • また「長期安定ユーザーは100や200のレート変動は過去に何度も経験済みで、100如きのレート低下では維持のためにAI使う可能性は低いだろう」という推論のもと長期安定ユーザーを研究対象としましたが、この52人が全員AIを使っていないと証明することはそもそも不可能です
  • よく見ると4o以降(ABC354-)からすでにパフォ低下は始まっていて、(これは800-1999というレート設定にしたからこそと考えられるが)強モデルリリースとともにレートが50づつ下がっているように見えなくもない(o1は有料だったからか、ABC377のインパクトの割にはレート低下が目立たない)

1章 レートへの影響 私の解釈まとめ:生成AI無料推論モデルのレートへの影響は「ある可能性が低くないが、あったとして緑水青でせいぜい50強程度で、100は超えないと考えて良い」「また、AI以外の急激なインフレ要因による変化を見ている可能性を排除できない(3章でケア)」

一切の不正をしていないと断言できる中級コーダーのみなさんは心の中で現在のレートに+60~80くらいしておいていいと考えます。その矜持を胸に今後も不正をしないでください。

(8/31追記)
山形推移の排除基準自体に、ABC391以降もレートを維持できている人を恣意的に排除する仕組みが組み込まれて結果を歪めている可能性があったため、

  • (ABC212-291のパフォーマンス平均 < ABC292-370のパフォーマンス平均) かつ (ABC292-370のパフォーマンス平均 > ABC391以降のパフォーマンス平均) となるような山形推移を認めない

の基準を

  • (ABC212-291のパフォーマンス平均 < ABC292-370のパフォーマンス平均 - 50) または (ABC212-291のパフォーマンス平均 > ABC292-370のパフォーマンス平均 + 50) を除外

のように変えてみました(つまり前期と後期でパフォーマンス平均に100未満の差しかない)が50人該当し結果は同じでした(やはり4oで50、o3で50下がっているように見える)

performance_barplot.png
IMG_0160.jpg

2. Difficultyへの影響

私は医者なのでレートが上がろうが下がろうが業務内容も給料も一切変わらず、レートを自慢するような環境にもなければ年齢でもない、それ以前にそもそも高レート人材ではないので、無料推論モデル台頭の困りごととしては個人的にはレート低下よりも、習得度目安であるところのdifficultyが破壊されることの方が煩わしく思っていました。どうにかdifficultyの補正目安を作れないかと思案したのが2記事目にあたる「生成AIはAtCoderBeginnerContestのインフレを加速させたか」です。
手法としてはabc212-320というAIがクソ雑魚だった時代の「配点、abc212からの経過日数、参加者数」からdifficultyを推測する回帰モデルを作成(AIが解ける問題に限定するためdifficultyは2400未満のみを対象とした)し、そのモデルから得られる予測difficultyと実際のdifficultyの差をabc321以降のdifficulty2400未満の問題すべてについて調べ、その残渣(予測のずれ)が391以降に急激に下振れすることを確認した。怪しいがこれがあたる、つまり390以前はそれなりの予測精度だったものが391以降に破壊されるという意味。
Figure_2.png

しかしこの手法にもいくつかの問題点がある。誓ってp-hackingのような条件を色々変えて良いデータを選び出すような不正は行っておらずガチンコで仮説を当てに行ったが、実はこの回帰モデルを用いる手法、説明変数や入れるデータで結構ばらつきが大きいのだ。例えば

負のdifficultyを排除するためdifficultyを0以上に絞った場合
diff0.png
difficultyの補正を行った場合(つまりAtCoderProblemsに載っているdifficulty)
diff0_corr.png
difficulty補正の影響を排除するためdifficultyを400以上に絞った場合
diff400.png
difficulty補正の影響を排除するためdifficultyを400以上に絞った場合(説明変数を配点のみに絞る)
diff400point_corr.png
difficultyを400以上2000未満とした場合(説明変数を配点のみに絞る)
diff4002000point_corr.png
といった感じで結構差が大きい(difficultyを絞ればデータも減るため結果のばらつきともとれるが)。381-390と391-400の間で断絶があるように見えるのは概ね同じだが、予測が同じくらい外れている場所がある回帰モデルもあるにはある。さらには考えてみれば配点のみならず問題の順番や、その問題の前に置かれていたdifficultyの総和とかも説明変数として重要なんじゃないかとか、でも説明変数に入れると多重共線性が問題になりそうだなとか、ちょっとツッコミどころの多い手法なのだ。また、391-400の特異さは検出できるとしても、仮にBANすり抜け露骨AI使用者やこっそりAI使用者が一定数いたとした場合、彼らのレートは徐々に上がるため、徐々にdifficultyデフレは目立たなくなるはずなのだ。

2章 difficultyへの影響 私の解釈まとめ:手法的限界が目立つが391以降に配点とdifficultyとの関係が崩れるような変化が急激に起こった可能性は低くないとは言える。ただ、そもそもdifficulty自体が元々前の問題の難易度などの要因に引っ張られるためAIの影響を分析するにはノイズが多すぎる。AI影響分析以前に、前の問題のdifficultyの影響等も極力補正可能な画期的な難易度推定手法を開発しなければならない。

3. 国内と海外の比較

この項ははじめから国内と海外を比較するという趣旨だったわけではなくしゅんぴーさん(@Shun___PI)のツイートをもとに分析してみたら副次的に生まれた章とも言える(1章に追加した分散の検定もこのツイートに影響を受けている)。その後のツイートも見るともしかしたらしゅんぴーさんは部外者が色々物申すのをあまり良く思っていないのかもと不安を覚えるが、しかしどうしても個人的興味が勝つので続けることにする。

事前に断っておきますが私はracism(競プロer大好きratismではありません)に加担する気はなく、ダン・アリエリーの「ずる」にあったように国籍、人種ごとに不正のしやすさに大差は無いと考えています。そのうえでですが、結論としてABCに関して言えば日本人と中国人はそれ以外と比較してあからさまな不正が少ない可能性が高いと言えそうです。(それ以外はだいぶ怪しい、中国も最近怪しい)

解析方法としては、上記の通り非常にシンプルかつ明快で、全ratedプレイヤーのレート変動の分散(ついでに平均も)を各期間について調べるだけです。これのどこが魅力的か、

  • 不正によりレートを上げたものと、その割を食ってレートを下げたものが発生するような状況を鋭敏に捉えることができる
  • 指標がシンプルなため国別の分析や比較をしやすい
  • 急激な変動が鋭敏に検出可能

課題としては

  • レート上昇を目的としたあからさまな不正が主の場合、分散は増加するが、冷え防止のこっそり使用がメインである場合にはむしろ分散は減少する可能性がある
  • 2章の手法と同じくAIの影響があったとしても長期的には変動および分散が小さくなっていく可能性がある
  • 急激な変動を観測したとしても、それがAIリリースと重なるという理由だけでは因果関係の証明にはならない

というわけでこれまた解釈が割れうる解析ではありますが、とりあえず結果を提示します。391-400(o3期)と381-390(直前)、338-347(1年前同時期)、328-337(1年前同時期直前)を全体、日本、中国、それ以外で比較しました。さらに層化も行い、1000未満、1000-1999での傾向も見ました。多重比較問題等は各自お考えください、クソでかデータのためp値にあまり意味はありませんが。
(解析コード)

分析対象レート帯: 全体

--- レート変動の分散と効果量の分析 (全体) ---

  [比較]: 'abc391-400' vs 'abc381-390'
    [記述統計]
    - abc391-400: N=99788, Mean=25.47, Variance=4456.88
    - abc381-390:   N=86664, Mean=24.82, Variance=4044.37
    [効果量]
    - コーエンのd (平均値の差): 0.010
    - 分散比 (ばらつきの差): 1.102
    [統計検定 (分散)]
    - ルビーンの検定統計量: 16.5150
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc338-347'
    [記述統計]
    - abc391-400: N=99788, Mean=25.47, Variance=4456.88
    - abc338-347:   N=95689, Mean=24.37, Variance=3446.66
    [効果量]
    - コーエンのd (平均値の差): 0.018
    - 分散比 (ばらつきの差): 1.293
    [統計検定 (分散)]
    - ルビーンの検定統計量: 118.1511
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc328-337'
    [記述統計]
    - abc391-400: N=99788, Mean=25.47, Variance=4456.88
    - abc328-337:   N=87039, Mean=24.72, Variance=3495.88
    [効果量]
    - コーエンのd (平均値の差): 0.012
    - 分散比 (ばらつきの差): 1.275
    [統計検定 (分散)]
    - ルビーンの検定統計量: 73.3288
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。
--------------------------------------------------

--- レート変動の分散と効果量の分析 (日本) ---

  [比較]: 'abc391-400' vs 'abc381-390'
    [記述統計]
    - abc391-400: N=35783, Mean=10.05, Variance=1279.36
    - abc381-390:   N=34098, Mean=13.65, Variance=1324.02
    [効果量]
    - コーエンのd (平均値の差): -0.100
    - 分散比 (ばらつきの差): 0.966
    [統計検定 (分散)]
    - ルビーンの検定統計量: 31.1914
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc338-347'
    [記述統計]
    - abc391-400: N=35783, Mean=10.05, Variance=1279.36
    - abc338-347:   N=39432, Mean=13.44, Variance=1019.39
    [効果量]
    - コーエンのd (平均値の差): -0.100
    - 分散比 (ばらつきの差): 1.255
    [統計検定 (分散)]
    - ルビーンの検定統計量: 5.8103
    - P値: 0.0159
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc328-337'
    [記述統計]
    - abc391-400: N=35783, Mean=10.05, Variance=1279.36
    - abc328-337:   N=38370, Mean=14.22, Variance=1130.40
    [効果量]
    - コーエンのd (平均値の差): -0.120
    - 分散比 (ばらつきの差): 1.132
    [統計検定 (分散)]
    - ルビーンの検定統計量: 51.1529
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。
--------------------------------------------------

--- レート変動の分散と効果量の分析 (中国) ---

  [比較]: 'abc391-400' vs 'abc381-390'
    [記述統計]
    - abc391-400: N=37203, Mean=34.36, Variance=5244.72
    - abc381-390:   N=27333, Mean=34.51, Variance=6464.83
    [効果量]
    - コーエンのd (平均値の差): -0.002
    - 分散比 (ばらつきの差): 0.811
    [統計検定 (分散)]
    - ルビーンの検定統計量: 9.8367
    - P値: 0.0017
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc338-347'
    [記述統計]
    - abc391-400: N=37203, Mean=34.36, Variance=5244.72
    - abc338-347:   N=25840, Mean=38.68, Variance=6217.84
    [効果量]
    - コーエンのd (平均値の差): -0.058
    - 分散比 (ばらつきの差): 0.843
    [統計検定 (分散)]
    - ルビーンの検定統計量: 31.0816
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc328-337'
    [記述統計]
    - abc391-400: N=37203, Mean=34.36, Variance=5244.72
    - abc328-337:   N=20619, Mean=40.58, Variance=6878.41
    [効果量]
    - コーエンのd (平均値の差): -0.081
    - 分散比 (ばらつきの差): 0.762
    [統計検定 (分散)]
    - ルビーンの検定統計量: 108.8408
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。
--------------------------------------------------

--- レート変動の分散と効果量の分析 (それ以外) ---

  [比較]: 'abc391-400' vs 'abc381-390'
    [記述統計]
    - abc391-400: N=26802, Mean=33.73, Variance=7110.80
    - abc381-390:   N=25233, Mean=29.41, Variance=4807.38
    [効果量]
    - コーエンのd (平均値の差): 0.056
    - 分散比 (ばらつきの差): 1.479
    [統計検定 (分散)]
    - ルビーンの検定統計量: 56.2348
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc338-347'
    [記述統計]
    - abc391-400: N=26802, Mean=33.73, Variance=7110.80
    - abc338-347:   N=30417, Mean=26.38, Variance=3906.49
    [効果量]
    - コーエンのd (平均値の差): 0.100
    - 分散比 (ばらつきの差): 1.820
    [統計検定 (分散)]
    - ルビーンの検定統計量: 261.9694
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc328-337'
    [記述統計]
    - abc391-400: N=26802, Mean=33.73, Variance=7110.80
    - abc328-337:   N=28050, Mean=27.42, Variance=3902.69
    [効果量]
    - コーエンのd (平均値の差): 0.085
    - 分散比 (ばらつきの差): 1.822
    [統計検定 (分散)]
    - ルビーンの検定統計量: 246.3028
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。
--------------------------------------------------

分析対象レート帯: 1000未満 (参加前レート基準)

--- レート変動の分散と効果量の分析 (全体) ---

  [比較]: 'abc391-400' vs 'abc381-390'
    [記述統計]
    - abc391-400: N=80838, Mean=28.87, Variance=4909.17
    - abc381-390:   N=69538, Mean=28.23, Variance=4470.67
    [効果量]
    - コーエンのd (平均値の差): 0.009
    - 分散比 (ばらつきの差): 1.098
    [統計検定 (分散)]
    - ルビーンの検定統計量: 15.3944
    - P値: 0.0001
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc338-347'
    [記述統計]
    - abc391-400: N=80838, Mean=28.87, Variance=4909.17
    - abc338-347:   N=77134, Mean=27.04, Variance=3755.93
    [効果量]
    - コーエンのd (平均値の差): 0.028
    - 分散比 (ばらつきの差): 1.307
    [統計検定 (分散)]
    - ルビーンの検定統計量: 104.2836
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc328-337'
    [記述統計]
    - abc391-400: N=80838, Mean=28.87, Variance=4909.17
    - abc328-337:   N=70312, Mean=27.63, Variance=3771.75
    [効果量]
    - コーエンのd (平均値の差): 0.019
    - 分散比 (ばらつきの差): 1.302
    [統計検定 (分散)]
    - ルビーンの検定統計量: 69.4127
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。
--------------------------------------------------

--- レート変動の分散と効果量の分析 (日本) ---

  [比較]: 'abc391-400' vs 'abc381-390'
    [記述統計]
    - abc391-400: N=27954, Mean=12.37, Variance=1301.53
    - abc381-390:   N=26403, Mean=16.34, Variance=1375.39
    [効果量]
    - コーエンのd (平均値の差): -0.109
    - 分散比 (ばらつきの差): 0.946
    [統計検定 (分散)]
    - ルビーンの検定統計量: 34.9214
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc338-347'
    [記述統計]
    - abc391-400: N=27954, Mean=12.37, Variance=1301.53
    - abc338-347:   N=29856, Mean=16.13, Variance=1031.69
    [効果量]
    - コーエンのd (平均値の差): -0.110
    - 分散比 (ばらつきの差): 1.262
    [統計検定 (分散)]
    - ルビーンの検定統計量: 12.4592
    - P値: 0.0004
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc328-337'
    [記述統計]
    - abc391-400: N=27954, Mean=12.37, Variance=1301.53
    - abc328-337:   N=29425, Mean=17.36, Variance=1157.37
    [効果量]
    - コーエンのd (平均値の差): -0.143
    - 分散比 (ばらつきの差): 1.125
    [統計検定 (分散)]
    - ルビーンの検定統計量: 70.2595
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。
--------------------------------------------------

--- レート変動の分散と効果量の分析 (中国) ---

  [比較]: 'abc391-400' vs 'abc381-390'
    [記述統計]
    - abc391-400: N=30878, Mean=37.31, Variance=5665.33
    - abc381-390:   N=22263, Mean=37.80, Variance=7180.40
    [効果量]
    - コーエンのd (平均値の差): -0.006
    - 分散比 (ばらつきの差): 0.789
    [統計検定 (分散)]
    - ルビーンの検定統計量: 7.5364
    - P値: 0.0060
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc338-347'
    [記述統計]
    - abc391-400: N=30878, Mean=37.31, Variance=5665.33
    - abc338-347:   N=21043, Mean=41.52, Variance=6816.69
    [効果量]
    - コーエンのd (平均値の差): -0.054
    - 分散比 (ばらつきの差): 0.831
    [統計検定 (分散)]
    - ルビーンの検定統計量: 22.4346
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc328-337'
    [記述統計]
    - abc391-400: N=30878, Mean=37.31, Variance=5665.33
    - abc328-337:   N=16509, Mean=43.85, Variance=7567.30
    [効果量]
    - コーエンのd (平均値の差): -0.082
    - 分散比 (ばらつきの差): 0.749
    [統計検定 (分散)]
    - ルビーンの検定統計量: 88.5090
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。
--------------------------------------------------

--- レート変動の分散と効果量の分析 (それ以外) ---

  [比較]: 'abc391-400' vs 'abc381-390'
    [記述統計]
    - abc391-400: N=22006, Mean=37.99, Variance=7902.38
    - abc381-390:   N=20872, Mean=33.05, Variance=5196.55
    [効果量]
    - コーエンのd (平均値の差): 0.061
    - 分散比 (ばらつきの差): 1.521
    [統計検定 (分散)]
    - ルビーンの検定統計量: 55.5482
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc338-347'
    [記述統計]
    - abc391-400: N=22006, Mean=37.99, Variance=7902.38
    - abc338-347:   N=26235, Mean=27.84, Variance=4097.35
    [効果量]
    - コーエンのd (平均値の差): 0.133
    - 分散比 (ばらつきの差): 1.929
    [統計検定 (分散)]
    - ルビーンの検定統計量: 269.4783
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc328-337'
    [記述統計]
    - abc391-400: N=22006, Mean=37.99, Variance=7902.38
    - abc328-337:   N=24378, Mean=29.04, Variance=4049.97
    [効果量]
    - コーエンのd (平均値の差): 0.117
    - 分散比 (ばらつきの差): 1.951
    [統計検定 (分散)]
    - ルビーンの検定統計量: 262.1748
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。
--------------------------------------------------

分析対象レート帯: 1000-1999 (参加前レート基準)

--- レート変動の分散と効果量の分析 (全体) ---

  [比較]: 'abc391-400' vs 'abc381-390'
    [記述統計]
    - abc391-400: N=18950, Mean=10.98, Variance=2268.32
    - abc381-390:   N=17126, Mean=10.97, Variance=2074.80
    [効果量]
    - コーエンのd (平均値の差): 0.000
    - 分散比 (ばらつきの差): 1.093
    [統計検定 (分散)]
    - ルビーンの検定統計量: 0.9774
    - P値: 0.3228
    - 結論: 分散の差は統計的に有意ではありません (p >= 0.05)。

  [比較]: 'abc391-400' vs 'abc338-347'
    [記述統計]
    - abc391-400: N=18950, Mean=10.98, Variance=2268.32
    - abc338-347:   N=18555, Mean=13.27, Variance=2008.17
    [効果量]
    - コーエンのd (平均値の差): -0.049
    - 分散比 (ばらつきの差): 1.130
    [統計検定 (分散)]
    - ルビーンの検定統計量: 11.5583
    - P値: 0.0007
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc328-337'
    [記述統計]
    - abc391-400: N=18950, Mean=10.98, Variance=2268.32
    - abc328-337:   N=16727, Mean=12.47, Variance=2150.73
    [効果量]
    - コーエンのd (平均値の差): -0.032
    - 分散比 (ばらつきの差): 1.055
    [統計検定 (分散)]
    - ルビーンの検定統計量: 5.7217
    - P値: 0.0168
    - 結論: 分散の差は統計的に有意です (p < 0.05)。
--------------------------------------------------

--- レート変動の分散と効果量の分析 (日本) ---

  [比較]: 'abc391-400' vs 'abc381-390'
    [記述統計]
    - abc391-400: N=7829, Mean=1.78, Variance=1112.86
    - abc381-390:   N=7695, Mean=4.40, Variance=1037.58
    [効果量]
    - コーエンのd (平均値の差): -0.080
    - 分散比 (ばらつきの差): 1.073
    [統計検定 (分散)]
    - ルビーンの検定統計量: 0.0045
    - P値: 0.9465
    - 結論: 分散の差は統計的に有意ではありません (p >= 0.05)。

  [比較]: 'abc391-400' vs 'abc338-347'
    [記述統計]
    - abc391-400: N=7829, Mean=1.78, Variance=1112.86
    - abc338-347:   N=9576, Mean=5.05, Variance=888.05
    [効果量]
    - コーエンのd (平均値の差): -0.104
    - 分散比 (ばらつきの差): 1.253
    [統計検定 (分散)]
    - ルビーンの検定統計量: 11.0064
    - P値: 0.0009
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc328-337'
    [記述統計]
    - abc391-400: N=7829, Mean=1.78, Variance=1112.86
    - abc328-337:   N=8945, Mean=3.89, Variance=902.41
    [効果量]
    - コーエンのd (平均値の差): -0.066
    - 分散比 (ばらつきの差): 1.233
    [統計検定 (分散)]
    - ルビーンの検定統計量: 14.0036
    - P値: 0.0002
    - 結論: 分散の差は統計的に有意です (p < 0.05)。
--------------------------------------------------

--- レート変動の分散と効果量の分析 (中国) ---

  [比較]: 'abc391-400' vs 'abc381-390'
    [記述統計]
    - abc391-400: N=6325, Mean=19.93, Variance=2941.01
    - abc381-390:   N=5070, Mean=20.05, Variance=3066.86
    [効果量]
    - コーエンのd (平均値の差): -0.002
    - 分散比 (ばらつきの差): 0.959
    [統計検定 (分散)]
    - ルビーンの検定統計量: 6.0777
    - P値: 0.0137
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc338-347'
    [記述統計]
    - abc391-400: N=6325, Mean=19.93, Variance=2941.01
    - abc338-347:   N=4797, Mean=26.25, Variance=3401.76
    [効果量]
    - コーエンのd (平均値の差): -0.113
    - 分散比 (ばらつきの差): 0.865
    [統計検定 (分散)]
    - ルビーンの検定統計量: 18.4717
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。

  [比較]: 'abc391-400' vs 'abc328-337'
    [記述統計]
    - abc391-400: N=6325, Mean=19.93, Variance=2941.01
    - abc328-337:   N=4110, Mean=27.42, Variance=3896.15
    [効果量]
    - コーエンのd (平均値の差): -0.130
    - 分散比 (ばらつきの差): 0.755
    [統計検定 (分散)]
    - ルビーンの検定統計量: 33.5770
    - P値: 0.0000
    - 結論: 分散の差は統計的に有意です (p < 0.05)。
--------------------------------------------------

--- レート変動の分散と効果量の分析 (それ以外) ---

  [比較]: 'abc391-400' vs 'abc381-390'
    [記述統計]
    - abc391-400: N=4796, Mean=14.19, Variance=3014.46
    - abc381-390:   N=4361, Mean=12.01, Variance=2579.57
    [効果量]
    - コーエンのd (平均値の差): 0.041
    - 分散比 (ばらつきの差): 1.169
    [統計検定 (分散)]
    - ルビーンの検定統計量: 1.8839
    - P値: 0.1699
    - 結論: 分散の差は統計的に有意ではありません (p >= 0.05)。

  [比較]: 'abc391-400' vs 'abc338-347'
    [記述統計]
    - abc391-400: N=4796, Mean=14.19, Variance=3014.46
    - abc338-347:   N=4182, Mean=17.20, Variance=2612.19
    [効果量]
    - コーエンのd (平均値の差): -0.057
    - 分散比 (ばらつきの差): 1.154
    [統計検定 (分散)]
    - ルビーンの検定統計量: 1.3678
    - P値: 0.2422
    - 結論: 分散の差は統計的に有意ではありません (p >= 0.05)。

  [比較]: 'abc391-400' vs 'abc328-337'
    [記述統計]
    - abc391-400: N=4796, Mean=14.19, Variance=3014.46
    - abc328-337:   N=3672, Mean=16.66, Variance=2792.40
    [効果量]
    - コーエンのd (平均値の差): -0.046
    - 分散比 (ばらつきの差): 1.080
    [統計検定 (分散)]
    - ルビーンの検定統計量: 0.0049
    - P値: 0.9439
    - 結論: 分散の差は統計的に有意ではありません (p >= 0.05)。
--------------------------------------------------

個人的な解釈の概略を述べておくと

  • 分散はo3以降で急激に400ほど増加しているが、これが大きいか小さいかは不明
  • 日本では少なくともo3直前からo3後の分散の増加は確認できず、むしろ分散、レートともに減少傾向にすらある
  • chokudai社長の言う通り中国人は短期間で1万人近く増えているが、391-400に関して言えば実は分散は1000以上低下しており、かつ目立ったレート上昇は無い。実力の均質な集団が一気に流入し、かつその実力は既存集団より明確に高いわけでもなければ成長が極端に早いわけでもないと考えるのが自然かと。ただし後述するが411以降では分散が増大しつつあるように見える
  • 全体で見てとれる分散の増加の主犯は「日本中国以外」かつ「レートが1000未満」の集団であり、これがまじでエグい
  • よく見ると4o以降(ABC354-)でも全く同様の経過を辿っている、つまり日中以外の分散急増、その後中国の分散増加
  • 日本はそもそも分散が小さく、AIによる分散増加も目立たない。教育水準が一定でかつ真面目、とでも言うべきか

3章 国内と海外の比較 私の解釈まとめ:「日本人でも中国人でもない奴らの一部がo3以降の時期に何らかの方法で一時急激にレートを上げた」というのは強く主張できる。

翻って第一章で述べた長期安定ユーザーのo3以降のレート低下の要因として「成長の早い中国10代急速流入仮説」は可能性が低いと考え、むしろ有象無象の海外不正勢が押し下げている説を私は唱えます。
ただ、一気に1万人近く中国人が増えればそれだけで既存日本ユーザーの平均レートが長期的に下がると考えるのも自然ではあり、実際に381-390 → 411-420 で レート1000-1999の人数が日本7695→7104、中国5070→6826と明らかに日本低下、中国上昇が見て取れます。これがAIによるかどうかは当然不明です。懸念点として以下に示しますが中国人のレート変化量分散は411以降増加傾向にあるようにも見え、今後推移を注視する必要があります。

ABC321以降すべてを視覚化したfigureも貼っておきます(これ見ると中国人最近急成長or不正してるのかも…
rating_abs_deviation_plot_overall.png
rating_abs_deviation_plot_japan.png
rating_abs_deviation_plot_china.png
rating_abs_deviation_plot_other.png

4. こっそり使用の実態調査

これを思いついたのはかの有名な算数問題ABC420Gについて考えている時でした。

詳しく述べると先日のABC420について、とりわけ簡単で誰でも解ける回だったA問題の正答が日本人3036人、海外6094人と1:2であるところこのG問題は日本315(445提出、70.8%正答)、海外1074(1430提出、75.1%正答)と、正答数にして3倍超の開き、正答率にも開きが出ており、海外の参加者の方が因数分解が身近な年齢層に寄っているとかでなければやはりAI不正で開いた差なのではないかと考えてしまった。
ここで正答率(=AC者数/提出者数)に初めて注目してみて、これは結構使えるのではと考えた。つまり、こっそり使用の主な目的は

  • 過剰に低いパフォーマンスをとってしまうことを回避するため、自身が解いても不自然ではない難度が想定されるにも関わらず解けていない問題をAIに解かせる
  • 潰しきれないバグやTLE原因をAIに聞く

の2個に分かれると考えるが、主に後者は正答率の不自然な上昇として観察できるのではないかという話。人間の注意力は人種や年齢等の母集団が多少変わった程度では向上するわけは無く、AI不正を検出する方法としてかなり優れているのではないかと考えられるわけだ。というわけで分析してみました。
使用データ例:ABC420
解析コード
APIブロックがかかったので気合いで100コンテスト分を手作業で保存した。研究は結局、気合と情熱の発露なのである。

country_trends_jp.png
stratified_trends_jp.png

AtCoder正答率に関する統計解析レポート
比較期間: '前'(abc339-368) vs '後'(abc391-420)
============================================================

--- 国別グループ: Overall ---
[Overall (総合)]
  - 比較期間 '前' (abc339-368): 平均=0.8678, 標準偏差=0.0315, N=30
  - 比較期間 '後' (abc391-420): 平均=0.8764, 標準偏差=0.0302, N=30

  --- t検定の前提評価 ---
  - 正規性 ('前'): p値=0.0049 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 正規性 ('後'): p値=0.9191 (正規分布と仮定します (p >= 0.05)。)
  - 分散の均質性: p値=0.7347 (分散は等しいと仮定します (p >= 0.05)。)
  (補足: Welchのt検定は分散が等しくなくても利用可能です。)

  --- t検定の結果 ---
  - 平均の差 ('後' - '前'): +0.0086
  - t値: 1.0810
  - p値 (片側): 0.1421
  - 効果量 (Cohen's d): 0.2791
  - 検定結果: 統計的に有意な上昇は検出されませんでした (p >= 0.05)。
------------------------------------------------------------
[Overall (レート層: <1000)]
  - 比較期間 '前' (abc339-368): 平均=0.8419, 標準偏差=0.0403, N=30
  - 比較期間 '後' (abc391-420): 平均=0.8557, 標準偏差=0.0368, N=30

  --- t検定の前提評価 ---
  - 正規性 ('前'): p値=0.0679 (正規分布と仮定します (p >= 0.05)。)
  - 正規性 ('後'): p値=0.9138 (正規分布と仮定します (p >= 0.05)。)
  - 分散の均質性: p値=0.9411 (分散は等しいと仮定します (p >= 0.05)。)
  (補足: Welchのt検定は分散が等しくなくても利用可能です。)

  --- t検定の結果 ---
  - 平均の差 ('後' - '前'): +0.0138
  - t値: 1.3829
  - p値 (片側): 0.0860
  - 効果量 (Cohen's d): 0.3571
  - 検定結果: 統計的に有意な上昇は検出されませんでした (p >= 0.05)。
------------------------------------------------------------
[Overall (レート層: 1000-1999)]
  - 比較期間 '前' (abc339-368): 平均=0.9272, 標準偏差=0.0234, N=30
  - 比較期間 '後' (abc391-420): 平均=0.9268, 標準偏差=0.0238, N=30

  --- t検定の前提評価 ---
  - 正規性 ('前'): p値=0.0003 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 正規性 ('後'): p値=0.0080 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 分散の均質性: p値=0.8893 (分散は等しいと仮定します (p >= 0.05)。)
  (補足: Welchのt検定は分散が等しくなくても利用可能です。)

  --- t検定の結果 ---
  - 平均の差 ('後' - '前'): -0.0004
  - t値: -0.0651
  - p値 (片側): 0.5258
  - 効果量 (Cohen's d): -0.0168
  - 検定結果: 統計的に有意な上昇は検出されませんでした (p >= 0.05)。
------------------------------------------------------------
--- 国別グループ: Japan ---
[Japan (総合)]
  - 比較期間 '前' (abc339-368): 平均=0.8632, 標準偏差=0.0306, N=30
  - 比較期間 '後' (abc391-420): 平均=0.8708, 標準偏差=0.0313, N=30

  --- t検定の前提評価 ---
  - 正規性 ('前'): p値=0.0381 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 正規性 ('後'): p値=0.5094 (正規分布と仮定します (p >= 0.05)。)
  - 分散の均質性: p値=0.6374 (分散は等しいと仮定します (p >= 0.05)。)
  (補足: Welchのt検定は分散が等しくなくても利用可能です。)

  --- t検定の結果 ---
  - 平均の差 ('後' - '前'): +0.0076
  - t値: 0.9512
  - p値 (片側): 0.1727
  - 効果量 (Cohen's d): 0.2456
  - 検定結果: 統計的に有意な上昇は検出されませんでした (p >= 0.05)。
------------------------------------------------------------
[Japan (レート層: <1000)]
  - 比較期間 '前' (abc339-368): 平均=0.8354, 標準偏差=0.0427, N=30
  - 比較期間 '後' (abc391-420): 平均=0.8496, 標準偏差=0.0386, N=30

  --- t検定の前提評価 ---
  - 正規性 ('前'): p値=0.2361 (正規分布と仮定します (p >= 0.05)。)
  - 正規性 ('後'): p値=0.2789 (正規分布と仮定します (p >= 0.05)。)
  - 分散の均質性: p値=0.9695 (分散は等しいと仮定します (p >= 0.05)。)
  (補足: Welchのt検定は分散が等しくなくても利用可能です。)

  --- t検定の結果 ---
  - 平均の差 ('後' - '前'): +0.0142
  - t値: 1.3516
  - p値 (片側): 0.0909
  - 効果量 (Cohen's d): 0.3490
  - 検定結果: 統計的に有意な上昇は検出されませんでした (p >= 0.05)。
------------------------------------------------------------
[Japan (レート層: 1000-1999)]
  - 比較期間 '前' (abc339-368): 平均=0.9202, 標準偏差=0.0246, N=30
  - 比較期間 '後' (abc391-420): 平均=0.9174, 標準偏差=0.0282, N=30

  --- t検定の前提評価 ---
  - 正規性 ('前'): p値=0.0024 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 正規性 ('後'): p値=0.0337 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 分散の均質性: p値=0.4671 (分散は等しいと仮定します (p >= 0.05)。)
  (補足: Welchのt検定は分散が等しくなくても利用可能です。)

  --- t検定の結果 ---
  - 平均の差 ('後' - '前'): -0.0027
  - t値: -0.4000
  - p値 (片側): 0.6547
  - 効果量 (Cohen's d): -0.1033
  - 検定結果: 統計的に有意な上昇は検出されませんでした (p >= 0.05)。
------------------------------------------------------------
--- 国別グループ: China ---
[China (総合)]
  - 比較期間 '前' (abc339-368): 平均=0.8709, 標準偏差=0.0341, N=30
  - 比較期間 '後' (abc391-420): 平均=0.8788, 標準偏差=0.0300, N=30

  --- t検定の前提評価 ---
  - 正規性 ('前'): p値=0.0012 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 正規性 ('後'): p値=0.9385 (正規分布と仮定します (p >= 0.05)。)
  - 分散の均質性: p値=0.9867 (分散は等しいと仮定します (p >= 0.05)。)
  (補足: Welchのt検定は分散が等しくなくても利用可能です。)

  --- t検定の結果 ---
  - 平均の差 ('後' - '前'): +0.0079
  - t値: 0.9471
  - p値 (片側): 0.1738
  - 効果量 (Cohen's d): 0.2445
  - 検定結果: 統計的に有意な上昇は検出されませんでした (p >= 0.05)。
------------------------------------------------------------
[China (レート層: <1000)]
  - 比較期間 '前' (abc339-368): 平均=0.8423, 標準偏差=0.0420, N=30
  - 比較期間 '後' (abc391-420): 平均=0.8562, 標準偏差=0.0366, N=30

  --- t検定の前提評価 ---
  - 正規性 ('前'): p値=0.0347 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 正規性 ('後'): p値=0.9168 (正規分布と仮定します (p >= 0.05)。)
  - 分散の均質性: p値=0.7850 (分散は等しいと仮定します (p >= 0.05)。)
  (補足: Welchのt検定は分散が等しくなくても利用可能です。)

  --- t検定の結果 ---
  - 平均の差 ('後' - '前'): +0.0139
  - t値: 1.3651
  - p値 (片側): 0.0888
  - 効果量 (Cohen's d): 0.3525
  - 検定結果: 統計的に有意な上昇は検出されませんでした (p >= 0.05)。
------------------------------------------------------------
[China (レート層: 1000-1999)]
  - 比較期間 '前' (abc339-368): 平均=0.9358, 標準偏差=0.0235, N=30
  - 比較期間 '後' (abc391-420): 平均=0.9352, 標準偏差=0.0216, N=30

  --- t検定の前提評価 ---
  - 正規性 ('前'): p値=0.0000 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 正規性 ('後'): p値=0.1595 (正規分布と仮定します (p >= 0.05)。)
  - 分散の均質性: p値=0.7845 (分散は等しいと仮定します (p >= 0.05)。)
  (補足: Welchのt検定は分散が等しくなくても利用可能です。)

  --- t検定の結果 ---
  - 平均の差 ('後' - '前'): -0.0005
  - t値: -0.0920
  - p値 (片側): 0.5365
  - 効果量 (Cohen's d): -0.0237
  - 検定結果: 統計的に有意な上昇は検出されませんでした (p >= 0.05)。
------------------------------------------------------------
--- 国別グループ: Others ---
[Others (総合)]
  - 比較期間 '前' (abc339-368): 平均=0.8726, 標準偏差=0.0345, N=30
  - 比較期間 '後' (abc391-420): 平均=0.8814, 標準偏差=0.0322, N=30

  --- t検定の前提評価 ---
  - 正規性 ('前'): p値=0.0008 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 正規性 ('後'): p値=0.7452 (正規分布と仮定します (p >= 0.05)。)
  - 分散の均質性: p値=0.9418 (分散は等しいと仮定します (p >= 0.05)。)
  (補足: Welchのt検定は分散が等しくなくても利用可能です。)

  --- t検定の結果 ---
  - 平均の差 ('後' - '前'): +0.0089
  - t値: 1.0305
  - p値 (片側): 0.1535
  - 効果量 (Cohen's d): 0.2661
  - 検定結果: 統計的に有意な上昇は検出されませんでした (p >= 0.05)。
------------------------------------------------------------
[Others (レート層: <1000)]
  - 比較期間 '前' (abc339-368): 平均=0.8512, 標準偏差=0.0414, N=30
  - 比較期間 '後' (abc391-420): 平均=0.8632, 標準偏差=0.0387, N=30

  --- t検定の前提評価 ---
  - 正規性 ('前'): p値=0.0064 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 正規性 ('後'): p値=0.5374 (正規分布と仮定します (p >= 0.05)。)
  - 分散の均質性: p値=0.9701 (分散は等しいと仮定します (p >= 0.05)。)
  (補足: Welchのt検定は分散が等しくなくても利用可能です。)

  --- t検定の結果 ---
  - 平均の差 ('後' - '前'): +0.0120
  - t値: 1.1585
  - p値 (片側): 0.1257
  - 効果量 (Cohen's d): 0.2991
  - 検定結果: 統計的に有意な上昇は検出されませんでした (p >= 0.05)。
------------------------------------------------------------
[Others (レート層: 1000-1999)]
  - 比較期間 '前' (abc339-368): 平均=0.9313, 標準偏差=0.0240, N=30
  - 比較期間 '後' (abc391-420): 平均=0.9301, 標準偏差=0.0254, N=30

  --- t検定の前提評価 ---
  - 正規性 ('前'): p値=0.0010 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 正規性 ('後'): p値=0.0013 (正規分布でない可能性が示唆されました (p < 0.05)。)
  - 分散の均質性: p値=0.8813 (分散は等しいと仮定します (p >= 0.05)。)
  (補足: Welchのt検定は分散が等しくなくても利用可能です。)

  --- t検定の結果 ---
  - 平均の差 ('後' - '前'): -0.0012
  - t値: -0.1872
  - p値 (片側): 0.5739
  - 効果量 (Cohen's d): -0.0483
  - 検定結果: 統計的に有意な上昇は検出されませんでした (p >= 0.05)。
------------------------------------------------------------

またもや日本人と中国人は正答率が上がっていない。というかこれに関してはそれ以外の国すらも上がっていない。
流石に疲れてきたし考察は何を言っても罪に問われないので自由に述べると

  • 新たなLLMモデルのリリース時期に合わせて正解率が上昇しているように見えなくもない
  • そして目に見える下降要因は件のatcoder生成AI禁止令。つまりみんな案外ちゃんとルールを守っていたのではないか
  • しかし考えてみればくそだわけの露骨不正erは解けるかどうかを考えず問題に突撃するため、結局それが正答率を押し下げ結果がマスクされている可能性はある
  • また、レート1000未満の層に関しては有意差こそ無いものの1000以上と比較すれば若干の正答率上昇トレンドが見て取れ、これはもしかしたらこっそり使用かもしれない

第4章 こっそり使用の実態調査 私の解釈まとめ:意外だが隠れ不正は統計的に検出できるほどには多くはなさそうで、また正答率の推移をみても大半はAtCoderの勅令を守っているように見える

まとめ

さてすべての分析をまとめると

ABC391以降で古参中級レート安定者のパフォーマンスが50-100下落傾向にあるのは概ね事実だが、これは4o以降の生成AIリリース(日本中国以外の有象無象の外人による使用が主)と中国人大量流入(なお中国人は少なくとも他国と比べて露骨にAIを使用している人間が多いという事実は観測されない)の複合要因によると考えられ、AIの影響と強く言えそうなのはパフォーマンスにして数十程度でありどれだけ大きくとも100未満である可能性が高い。またこっそり使用も実は案外多くはなさそう。

あなたが不正をしていないと言い切れるならば、レート低下をその勲章と割り切り50-100のレート低下を甘んじて受け入れるべきであり、疑心暗鬼になって自分も使用するということは厳に避けるべきである。そしてクソカス不正erは全員◯ね

私はnoコパなのでcopilotが暴走()することはありませんが、正直言うと私もpythonユーザーである手前、変換まわりでルール的に怪しいc++変換と捉えられかねない提出をしたことが過去に無いわけではないです(というかルール変更初期には公式プロンプトを使わない変換をしてしまっていたことも何度かありました)、なので私も広義のクソカス不正erに含まれてしまうのかもしれません死んで詫びます(自身や他者のパフォーマンスに影響が出るほどではないと思いたいです。またそれを避けるためc++を再履修しています。ProblemsリンクABC復習記事)。

どちらにしてもAI不正の実態がこのように規模感を持って今後より詳細に解明されていけば、「自分を特別な存在だと信じたい若年性自尊心により正常な判断能力を奪われている者」を除いてレートのために不正をする者は減り、最終的にはレーティングシステムが再び正常化に近づくと信じています。今後もよろしくお願いします。あじゃ~

おわり
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?