はじめに
本記事は技術記事ではなく、考えていたことをまとめた論考よりの記事です。
特に「言語による学習データ量の違い」というトピックを軸に、AI時代の知識格差について論じています。
ある言語で書かれた知識が多ければ多いほど、その言語で動くAIは賢くなります。逆もまた然りで、データの少ない言語で動くAIは、その言語の知的伝統を十分に反映できません。
一見すると単純な「データ量の問題」に見えるこの構造は、しかし掘り下げていくと 「どの言語で育った知識が"人類の知識"として扱われるか」 という認識論的・地政学的な問いに行き着きます。
本記事では、この問題を「畑の大きさ」という比喩を出発点に、複利的格差、クローズドモデル化、そしてAccuracyとTruthの混同という観点から論じます。
1. 現状の整理:格差はすでに構造的問題である
Wikipediaの記事数に象徴されるように、言語ごとのデジタル化された学習データ量には桁違いの差がある。英語版は約700万件、日本語版が約140万件であるのに対し、スワヒリ語は約10万件、さらにマイナーな言語ではその数は数千〜数百件にまで落ち込む。
さらに踏み込めば、LLMの主要な訓練データである Common Crawl において、英語のドキュメントが全体の約45%前後を占めるという推定もある。つまり、私たちが日々利用するLLMの「思考の素材」は、極端に英語に偏ったコーパスから構築されているということだ。
ただし、ここで重要なのは「量」だけでなく 「質の構造」 でもある。英語のデータには、学術論文・技術文書・法律文書・哲学的議論が豊富に含まれており、モデルはその言語で抽象的・批判的な思考のパターンを学習できる。一方で学習データが少ない言語では、そうした高次の思考様式のパターンが著しく希薄になる。
これは単に「畑の大きさ」の問題ではなく、土壌の質と深さ の問題でもある。同じ作物を植えても、育つ実の質が違うのだ。
2. 複利的格差:フィードバックループの恐怖
この問題がより深刻なのは、格差が静的ではなく 動的に拡大する 点だ。
英語でAIが優秀
↓
英語でAI利用が増える
↓
英語の生成データが蓄積される
↓
さらに英語のモデルが賢くなる
↓
(ループ)
このフィードバックループは、AIが知識インフラ化するほど加速する。学問・研究・ビジネスの場でAIが中心的ツールになればなるほど、主要言語圏の知的生産性だけが指数的に高まり、それ以外の言語圏との差は非線形に広がっていく。
興味深いのは、近年指摘されている モデル崩壊(model collapse) との関係だ。AI生成データが学習データに混入することでモデルの性能が劣化するという現象は、英語圏では「リスク」として議論される。だがデータが希少な言語圏では、合成データへの依存はそもそも回避困難であり、崩壊リスクと格差解消の必要性が同時に高まるという二重拘束に陥る。
これはかつての「出版語の覇権(ラテン語 → フランス語 → 英語)」が生んだ知識格差を、AI時代に桁違いのスピードで再現する可能性がある。違いは、今回はそれが 数年単位で起こりうる という点だ。
3. クローズドモデル化という加速装置
ここに、ミトスのような「優秀かつクローズドな方向へ向かう強力なモデル」が加わると、問題はさらに複雑になる。
オープンなモデルであれば、各言語コミュニティが独自にファインチューニングし、自言語の知識体系に適応させることができる。実際、低リソース言語に特化したオープンモデルの試みは世界中で行われている。
しかしクローズドモデルが事実上の標準となった世界では、言語マイノリティはモデルの 「利用者」にしかなれず、「設計者」にはなれない。
このことは、知識主権(Knowledge Sovereignty) という観点から見ると深刻だ。先住民データ主権(Indigenous Data Sovereignty)の議論が示してきたように、誰がデータを保有し、誰がその表現を制御するかは、文化的存続そのものに関わる問題である。
たとえば、ある地域固有の農業知識、法体系、医療慣行、哲学的伝統が、英語データで訓練された外部モデルを通じてのみアクセスされるようになれば、その知識は外部の認識フレームによって 再解釈・歪曲されるリスク を常にはらむことになる。「翻訳」と「同化」の境界線は、思っているよりずっと曖昧だ。
4. Accuracy ≠ True という根本問題
ここで、もう一つの重要な論点と接続したい。Accuracy(正確さ)とTruth(真実)は同じではない という問題だ。
機械学習でいうAccuracyとは、本質的に「既存のデータ分布への適合度」である。だがTruthとは本来、それぞれの文脈・文化・実践における正しさのはずだ。
英語データで定義された「正確さ」が世界標準のモデルに埋め込まれると、それ以外の言語・文化圏の「正しさ」は体系的に過小評価されるか、誤って変換される。たとえば「家族」「所有」「正義」「健康」といった概念は、言語ごとに微妙に異なる意味の網の目を持つ。これらが英語の意味空間に強制的にマッピングされたとき、そこで何が失われているかは、当事者にしか見えない。
つまり、AIは多数派の「Accuracy」を普遍的な「Truth」として流通させてしまう。これは技術的問題であると同時に、きわめて政治的な問題でもある。
5. では何を問うべきか
ここまでの議論が示すのは、AIの性能競争はすでに 認識論的・地政学的な競争と不可分 であるということだ。技術コミュニティが向き合うべき問いを、いくつか挙げておきたい。
問い1:知識をAIに「学ばせる」権利
言語的・文化的に小さなコミュニティが、自らの知識体系をAIに学ばせる権利と手段をどう確保するか。これはデータの提供者としてではなく、設計の参加者 としての位置をどう保証するかという問題である。
問い2:「英語で考えること」の暗黙の前提化
学問の場でAI利用が標準化される中で、「英語で考えること」が暗黙の前提となる構造をどう意識化・批判するか。日本語で研究するということは、AI時代に何を意味するのか。
問い3:オープンソースモデルの位置づけ
オープンソースモデルの維持は、単なる技術的な選択肢の問題ではなく、知識の民主主義の条件 として論じられるべきではないか。「性能が同等ならクローズドでもよい」という議論は、この観点を見落としている。
おわりに
性能のベンチマークを追いかけることと同じくらい、自分が使っている言語のモデルが、何を学べず、何を歪めているのか を問い続けることが、これからのAI技術者・研究者・利用者の知的誠実さの一部になるのではないかと思っています。