Elixir Advent Calendar 2025

ElixirChipの鼓動④ ノイマン型の闇（性能劣化、消費電力増大）は今から解決できる～君は高速分散データ処理とエッジコンピューティングの未来を見る

Last updated at 2026-05-21Posted at 2025-12-25

この記事は、Elixir Advent Calendar 2025 その1 の24日目です

piacere です、ご覧いただいてありがとございます

前回は、私達のほとんどが従来の「ノイマン型コンピュータ」の80年に渡る「呪い」にかかっており、「フォン・ノイマン・ボトルネック」、つまりCPUとメモリの速度差がもたらす「性能劣化」と「電力消費増大」にエンジニアは苛まれているという、多くの方が気付いていない現代コンピューティングの「闇」を明らかにしました

さらに、マルチコアを使いこなすようには作られていない従来型プログラミング言語や、「メモリの破壊的更新」に伴う課題（キャッシュヒットミス性能劣化、キャッシュ過剰利用で消費電力増加）に触れ、これら課題は、「現代の需要を支え切れない」という観点を示しました

今回は、ElixirChipが、そうした現代コンピューティングの課題や「闇」を、どのように晴らすのかについて、「AIとコンピューティングの7つの課題」を出発点とし、解決方法を提示します

なお、私はコンピューティングとデータ処理、並行分散ソフトウェア／OS開発、SaaS事業経営の専門家ではありますが、CPU開発および宇宙開発に特化した専門家ではありません

また、科学コミュニティを主催してはいますが、アカデミックな面で上記を専攻していない「野良科学者」のため、各分野にご興味高い方や造形深い方、現業で有識な方とディスカッションしたり、ご教授いただけたら嬉しいです

あと、このコラムが、面白かったり、役に立ったら、をお願いします

Elixirアドベントカレンダー、応援お願いします

今年もやっています

ⅰ）今のコンピュータはAIにもWebにも向いていない事実

今回コラムは、2,000名近くがライブ配信を見てくださった「Qiita Conference 2025 Autumn」の登壇を土台にしつつ、20分の登壇では伝え切れなかったアレコレを補足しつつ、登壇で出さなかった「ローカルLLM」の軸も追加した内容でお届けします

「今のコンピュータ、AIにもWebにも向いていないので作り直そう!!」

「AIの先のまだ見ぬ未来へ。加速するエンジニアリングの最前線」をテーマとした本イベントに、トップバッターで出演しましたが、世界的に著名な凄腕エンジニア／AIエンジニアが並ぶ中でもアンケートトップ評価をいただけたようです … ありがとございます

YouTubeライブ配信アーカイブが下記で見れます（私の登壇から始まるようタイムライン設定済）

それでは、登壇でもお話していない＋αも混じった解説を始めていきましょう

ⅱ）AIとコンピュータの7つの課題とは？

現代のAIとコンピュータには、フォン・ノイマン・ボトルネック（以降VNBと略）を含む7つの課題があります

課題①：生成AIの60%はGPU向きでは無い

1つ目の課題は、生成AIの処理のうち、GPU向きで無い処理が60%もあり、HW性能を引き出せていないという点です

特に生成AIの中核をなす「Multi-head Attention」が向いておらず、「スコア行列」や「加重和」、「Attentionマスク」等は、GDDR／HBMとGPUキャッシュ（Shared Memory、L1、L2）の間でO (n²) メモリ転送輻輳を起こし、大幅にスローダウンします

たとえば現行GPUのNVIDIA H100だと、バッチサイズ4／トークン数1,000くらいからL2で収容できなくなり、2から5倍、スローダウンします

なお、Multi-head Attentionの改良版である、Deepseek／GPT-4以降で導入された「Grouped Query Attention」も改善はしているものの、根本的な苦手には変わりはありません

生成AIにおける「スコア行列」や「加重和」、「Attentionマスク」の扱いについては、下記コラムで把握できます

その他にも、多数のGPU向きで無い処理があります … ある種、学習に最適化されて進化してきたGPUは、推論にムダな電力消費と性能劣化を押し付けるアーキテクチャと言えます

課題②：VNBはプロセスルールより影が薄い

2つ目の課題は、プロセスルールよりもVNBは影が薄いことです

4nmまではFinFET（Fin Field Effect Transistor）が通用し、CPU／GPUの改善が順調に進んだことを背景に、CPU／GPUの性能向上はプロセスルールが幅を利かせていますが、実は3nm以降はだいぶムリをしています

また、FinFETの次のGAAFET（Gate All Around Field Effect Transistor）での解決は、物理／加工精度／配線／経済面の各限界が同時発生しており、各制約が相互に足を引っ張り始め、個別最適が成立しなくなっています

このあたりの詳しい経緯は、下記をご参照ください

なお、プロセスルールが1世代あたり15%向上しか無い一方、VNBは2～3世代分を帳消しにするインパクトです ⋯ その原因は上記スライドの通りです

GPUと生成AIは、この影響がCPUより顕著です

にも関わらず、VNBはプロセスルールほどはCPU／GPUの性能向上として注目されていないのが現状です

課題③：電力増加による高性能化はもう限界

3つ目の課題は、電力増加による高性能化はもう限界ということです

皆さんご存知の通り、現代はクラウド全盛なので、データセンターのコンピュータ消費電力／性能は重要です

そして年々、性能アップが求められ、CPU／GPUの高性能化に消費電力増大が伴います

しかし、高性能化には排熱も増えるため、それを冷却するための冷却設備の負荷が上昇すると、それによる消費電力の増大が別途発生します

2014年頃までは、そこまで排熱が無かったため、冷却負荷が低く、PUE (Power Usage Effectiveness：電力効率) というデータセンターの対演算電力効率を改善し続けられましたが、近年は高性能化すればするほど排熱の方が増加率が高く、冷却設備の消費電力の方が上回ってしまい、PUE改善も停滞を迎えてしまいました

その結果、平均PUEは1.58、都市型は1.5～2.0で歩留まっています（下記参照）

「電力を増やせば高性能化できる」という考えそのものが、もう限界に来ており、もはやCPU／GPUの高性能化は、データセンター運用としてペイしない限界を迎えています

また、建設地域の電力をデータセンターが占有することによる電力供給不安や、排熱によるヒートアイランド懸念で、日本も含む世界各地の住民反対運動の火種にもなっているのが現状です

課題④：NW帯域もVNBでフル活用できない

4つ目の課題は、NW帯域もVNBでフル活用できていない点です

NWパケット処理は、下記スライドの通り、VNBの温床です … 上り下りで計8点もVNBがあるせいで、回線速度の10%から40％しか使えていないが、みんな渋々受け入れている感じでは無いでしょうか？

これは1箇所しかVNBが無い演算よりも遥かに深刻で、かつ末端のコンピュータだけで無く、NWの中継となるルータやCDN、ファイアウォール、ロードバランサー等に対しても同様の課題があります（OSやTCP/IPスタック、ロジックまでの全てがSoC化されたレイヤー1～3はその例外）

SmartNIC／DPU／GPUDirect／XGMI／CXL／RDMA／NVLink等は、NWからOS手前の前半部は緩和しますが、OSやTCP/IPスタック以降からアプリまでの後半部分は全く改善できないため、現代的なOS／アプリの構造を持つ限り、改善が不可能です

これは、回線そのものを高速化するフォトニクス (NVLink OpticalやIOWN等) でも同様です

課題⑤：シングルコア前提の言語が主流

5つ目の課題は、シングルコア前提の言語が主流である点です

1990年代に誕生した言語の多くは、コア性能が伸び続ける時代背景からシングルコア前提ですが、2003年から性能が伸び悩み、デュアルコアやマルチコアといったコア数増加にHWは進化していきました

しかし、シングルコア前提の言語を何も考えずに書くと、2つ目以降のコアは使われません … にも関わらず、2つ目以降のコアは、アイドル状態でも40%近い電力をムダに食うのが放置されます

この事実に多くのプログラマが気付いておらず、1990年代の言語によってサービスが慣例的（ないしは調達容易性優位）に開発され、シングルコア向けプログラミングが常態化している現状では無いでしょうか？

それと、メモリ破壊的更新（≒ミュータブル）による分散／並列化の阻害や、キャッシュコヒーレンシとロック管理で消費電力増大／性能劣化し、コードが複雑化するのを、プログラマが苦労して片付けることも問題です

実は、こうしたことでプログラマが苦労を強いられる一方で、それを招いているのがプログラマ自身であるという皮肉な構造もありそうです（中には、コストしか分からないマネージャ層／経営層が原因であることもありますが）

課題⑥：プログラマ、非ノイマン型は開発困難

6つ目の課題は、非ノイマン型コンピュータでは普通のプログラマは開発できない点です

ここまで述べたノイマン型の課題を解決すべく、非ノイマン型が研究されていますが、実用になっているものは少なく、Google TPU、Perfered Network MN-Core、Graphcoreなど特殊目的向けの僅かのみです

そして、もし開発機会があっても、普通のWeb／IoT／AIプログラマが使う言語や開発知識では開発できません

なお、言語そのものは利用できても、実際は特化DSLやHWレベルの知識が必要で、結局、普通の知識は使えないことに変わりはありません

非ノイマン的プログラミング（GPUローカルメモリ高効率利用、CPUキャッシュアウト抑制などTPU的なアイデア）も、技術的には可能だけど、普通のプログラマの範疇を超えており、全てのプログラマが実施可能とは決して言えません

課題⑦：プログラマ、ASIC／SoCも開発困難

7つ目の課題は、ASIC／SoCも普通のプログラマが開発できない点です

ノイマン型のままでも、ASIC／SoC／FPGAはソフトウェア処理をHW化でき有望ですが、スライドにあるようなRTLやHLSと言ったHW記述言語を書かなければならず、HW知識の無いプログラマはプログラミングできません

レイヤー4以上のNW機器がASIC／SoC化されないのも、上記言語のASIC／SoC開発が困難でペイしない点にあり、ASIC／SoC開発での開発困難は実証済みとも言えます

ⅲ）これら7つの課題が5年後に引き起こす大問題

ズバリ、「今から5年後、AIも、Web＋NWも、『電力不足』で使えなくなる？」と言うことです

ここに繋がる兆候は、今年後半には様々なニュースで皆さんも目にするようになったので、下記に幾つか示しておきます

また、根拠となるシナリオと試算は、以下の通りです

「人類の行き詰まり」と言うレベルで認識できていない？

ここまでの課題から、現代のAIやWeb、NW、OS、言語は、まったくHW性能を引き出せていないと言う傾向が見て取れます

しかし、ソフトウェア開発とクラウド利用をしているだけでは、これらは見えにくく、何なら数多くの人々が、

「現代のCPUやGPU、NW、OSは、充分に高性能である」

と言った誤解すら抱いている方が多いのでは無いでしょうか？

しかし、その実態は、

「現代CPU／GPUのアーキテクチャと、その上のNW、OSが、HW性能を損なっている」

ということなのです

また、

「今後の性能向上も頭打ちで、電力不足解消も危うい」

と言うことすら、上述の課題は示しています … 全く楽観的になれる要素がありません

そうした齟齬が、この問題をまるっと覆い隠している今の状況こそが、本当に怖いことです

ⅳ）電力面／性能面でノイマン型の闇を晴らすElixirChip

これら7つの課題を放置すると「人類が詰む」と分かった私達は、この状況の打開をfukuoka .ex設立からの8年間、模索し続けてきました

その結果、

「FPGA上に実装されたElixir」が、全ての課題を解決可能

だと言うことが分かりました

2030年の電力不足は、FPGA版ElixirChip を用いた製品が世に広まれば解消される見込みです

それでは、FPGA版ElixirChip の基本性能を見てみましょう

FPGA版ElixirChipの基本性能

１．絶対性能／消費電力／価格あたり性能

FPGA版ElixirChipの基本性能は、Xeon Silver 4309Y、Xeon Gold 6442Y、ThreadRipper Pro 9995WXとの比較で見ていきます

まずデータセンターで現役のXeon Silverとの比較は、性能2.1倍、消費電力96.5%削減で、消費電力あたり性能は実に60倍と凄まじい成績です

次に、上位機種のXeon Goldとの比較だと、性能0.6倍と負けているものの、消費電力98.6%削減で、消費電力あたり性能は43倍と、Xeon Silver同様、なかなかの好成績です

最後に、将棋の藤井聡太で有名になったThreadRipperとの比較は、消費電力90.4%削減で、消費電力あたり性能は11倍、上回っており、10台構成にすれば、同等性能になり、価格あたり性能は3倍です

なお、スパコン世界トップの「El Capitan」に乗ってるEPYC 9004の上位機種、EPYC 9755との比較もThreadRipperと似たような感じなので、スパコンとバトれるかも知れません

２．プロセスルール対比

プロセスルール面の比較にも触れておきますが、上記の基本性能は、廉価版FPGA「KR260」ElixirChipの成績で、プロセスルール16nmという10年前の技術で構成されています

ほぼ同年代／同nmのXeon E3-1285 v4との比較では、性能8倍、消費電力80%削減と圧勝です

また、4年前に出た10nmのXeon Silverは、ElixirChipより有利なプロセスルールのはずですが、ElixirChipは性能が2.1倍かつ消費電力96.5%削減と優位性が見られます

課題②で述べた「CPU／GPUはプロセスルールよりもVNBの方が影響が大きい」が実証されたかと思います

３．対GPUとの対比想定

これら実証から、7nmでKR260よりもハイエンドな「Versal HBM」なら、同年代のGPUであるNVIDIA A100や、新し目のH100、TRX5080、CB200とバトっても勝っていける可能性あります

ｖ）ElixirChipはどのように7つの課題を解決するか？

このようなElixirChipの性能面／消費電力面の改善をもって、「AIとコンピュータの7つの課題」がどのように解決するかは、「ElixirChipの鼓動⑤ 「AIとコンピューティングの7つの課題」を解決した後に訪れる世界～君は高速分散データ処理とエッジコンピューティングの未来を見る」でお届けします

終わりに … ElixirChipを気軽に「現場」に置いてみよう

「AIとコンピューティングの7つの課題」を明らかにし、「現代CPU／GPUのアーキテクチャと、その上のNW、OSが、HW性能を損なっている」という点について共有しました

そうしたノイマン型の闇（性能劣化、消費電力増大）を、ElixirChipがどのように解決できるかも示しました

私達は、80年に渡る「呪い」にかかっています

そして、それに気付き、解消できるのも、また現代を生きる私達自身です

その実践例として、ElixirChipを気軽に「現場」に置ける、通信断でも止まらない「GENBAサーバー」と言うものを作ってみました

これは、クラウドだけだと少し困る場面（通信断、速度、個人情報やノウハウ等の外に出したくないデータ、設置制約など）をその場でカバーするための「すごく小さいけど高性能／省電力でセキュリティに優れたサーバー」です

あらゆるコンピューティングを「現場で完結」させられ、「クラウドに依存しない」ような使い方が出来るので、工場や医療／介護、防災、金融／保険、労務／給与管理等といったシーンで威力を発揮します

ElixirChipの高性能／省電力に加え、低発熱で静音、100Vで動作し、ローカルLLMも使えるので、今回コラムの内容を全て実践できます

Elixirでプログラミング可能なので、HW記述言語や特化DSLを覚えなくてもお手元の業務システムを容易にHW化、出来ます

大規模処理をクラウドに分担させ、即時処理は手元のGENBAサーバーや、複数台のGENBAサーバークラスタで賄うと言った分散も、Elixir同様に得意技です

Elixirが出来ることの多く[^1]と、既存Elixir／Erlang資産の利用が出来ます

カメラの横にちょこんと置けるような「手のひらサイズ」のバージョンも、今後ラインナップ予定です

バッテリー駆動によるリモートエッジ化も、近々検討予定です

もしGENBAサーバーやElixirChipが気になったら、下記XのDMにご連絡ください … 世の中に無い、面白そうなものを一緒に作りましょう

piacere_ex

p.s.このコラムが、面白かったり、役に立ったら…

にて、どうぞ応援よろしくお願いします

明日も私で「ElixirChipの鼓動⑤ 「AIとコンピューティングの7つの課題」を解決した後に訪れる世界～君は高速分散データ処理とエッジコンピューティングの未来を見る」です

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

ElixirChipの鼓動④ ノイマン型の闇（性能劣化、消費電力増大）は今から解決できる ～君は高速分散データ処理とエッジコンピューティングの未来を見る