存在を学ぶアーキテクチャ

Posted at 2026-05-03

存在を学ぶアーキテクチャ

── 2bit四値量子化・PHOTON階層構造・自己組織化の統合論 ──

2026年5月3日　思考の記録

序：出発点

Qiitaに書いた一本の記事がある。

「2bitで実現する疑似1.58bit量子化：無効状態を導入した制約付き符号化」

出発点はシンプルな疑問だった。1.58bit量子化（ternary: -1, 0, +1）は理論的に美しいが、ハードウェア的には扱いにくい。GPUは整数bitを前提に設計されており、非整数のbitパッキングはSIMD演算と相性が悪い。ならば2bitのまま三値を実現できないか。

記事ではこう定式化した。

E(-1) = 00
E(0)  = 01
E(+1) = 10
11    = ⊥（無効・未使用）

これは「1.58bitとハードウェアの折衷解」として提示した。
しかし今日の議論で、この定式化の意味が根本から変わることになる。

I. 11の反転

記事における11は「無駄な状態」だった。四値あるのに三値しか使わない、その余りとして存在していた。

ここで問いを立て直す。

「無駄に見える状態に意味を与えたら何が起きるか」

再定義：

00 → 存在しない（構造的ゼロ・計算スキップ対象）
01 → -1（ネガティブ）
10 → +1（ポジティブ）
11 → 中庸・両立しうる状態（意味的ゼロ）

この再定義によって、「ゼロ」が二種類に分裂する。

従来のニューラルネットワークにおける「ゼロ」には、実は二つの意味が混在していた。
ひとつは「この重みは存在しない（死んだニューロン・枝刈り対象）」というゼロ。
もうひとつは「この重みは正負が拮抗して中立になっている」というゼロ。

00と11はこの二種類を明示的に区別する符号化である。

これは単なる実装の工夫ではない。重みの存在論的な意味の再定義だ。

II. 演算効率の試算

この四値体系がもたらす演算効率の改善を試算する。

重みメモリの削減：FP16（16bit）から2bitへの圧縮で8倍の削減。

乗算の消滅：01（-1）と10（+1）は加減算のみで処理できる。乗算器の面積は加算器の4〜6倍、電力消費は3〜4倍であることを考えると、演算あたり3〜4倍の効率改善。

00による演算スキップ：存在しない重みは計算回路そのものを動かさない。学習収束後に40〜50%が00になると仮定すれば、演算量は約60%に削減される。

これらを組み合わせた試算：

重みメモリ削減    × 8.0倍
乗算→加算置換    × 3.0〜4.0倍
00スキップ       × 1.67倍（40%想定）
─────────────────────────────
演算効率の純改善  × 30〜50倍（現実的中央値）

ただしこの数値は精度を維持できた場合の話であり、精度問題が最大の未解決課題として残る。

III. PHOTONとの出会い

ここで別の文脈から来た研究と接続する。

PHOTON（Parallel Hierarchical Operation for TOp-down Networks）は富士通・理化学研究所が2025年12月に発表した階層的自己回帰モデルである。

従来のTransformerは「水平スキャナー」だ。トークンを生成するたびに全履歴のKVキャッシュにアクセスし、文章が長くなるほどメモリが律速要因になる。

PHOTONはこの「水平」を「垂直（階層的）」に変える。言語が本来持つ階層構造──サブワード→単語→文→文書──に沿って、粗い層から細かい層へと情報を処理する。結果として、KVキャッシュのトラフィックを劇的に削減し、最大103倍のスループット改善を実現する。

この研究に出会ったとき、直感が働いた。

2bit四値の符号とPHOTONの階層構造は、同じ原理を別の場所で表現している。

IV. 精度問題の解法

2bit量子化の最大の懸念は精度劣化だ。しかしPHOTONの垂直階層構造がこの問題を解く鍵になる可能性がある。

垂直束ねによる精度の確保：

2bit × 4層（垂直に積み重ねる）：
  表現可能な状態数 = 4^4 = 256状態（FP8相当）

2bit × 8層：
  表現可能な状態数 = 4^8 = 65,536状態（FP16相当）

N=8の2bit四値で、理論上FP16と同等の表現力に達する。これは残差量子化の考え方に近いが、決定的に違う点がある。各層が「計算効率のための構造分割」ではなく「言語の意味構造そのもの」と対応するという点だ。

粗い層（談話レベル）：
  01/10が多い──大局的な方向性は確定
  
中間層（文レベル）：
  11が多い──文脈次第で変わる関係性を保持
  
細かい層（トークンレベル）：
  00が多い──ほとんどの局所接続は不要

この対応は設計したものではなく、原理から必然的に導かれる。

精度と効率のトレードオフが、階層という軸によって切り離される。

従来のパラダイムでは精度と効率はトレードオフだった。この設計では精度は「垂直方向の深さ」で確保し、効率は「水平方向のbit幅削減」で確保する。

V. 水平への展開

垂直に束ねることができたなら、その構造ごと水平方向に束ねることもできる。

タワーA      タワーB      タワーC      タワーD
[談話] 2bit  [談話] 2bit  [談話] 2bit  [談話] 2bit
   ↕            ↕            ↕            ↕
[文]   2bit  [文]   2bit  [文]   2bit  [文]   2bit
   ↕            ↕            ↕            ↕
[語]   2bit  [語]   2bit  [語]   2bit  [語]   2bit

←────────── 水平方向の束ね ──────────→

各タワーが専門家として機能し、タワー間の接続もまた2bit四値で表現される。

タワーA ──10──→ タワーB
   ↑               │
  01              00（接続なし）
   │               ↓
タワーD ←11── タワーC

接続の00（存在しない）は「このタワー間に関係はない」を意味し、11（中庸）は「状況によって協調する可能性がある」を意味する。

これは固定されたグラフではない。学習によって浮かび上がるグラフ構造だ。

既存の研究との対応を見ると：S'MoRE（Meta, 2025）が垂直束ねの概念に近く、Cross-Layer Expert Collaboration（2025）が水平束ねの自己組織化を観察している。しかし両者を統一する設計原理としての提案はまだ存在しない。

VI. フラクタルとしての必然

垂直タワーを水平に束ね、さらにその束ねた構造をまた束ねることができる。

レベル1：2bit四値の重み
レベル2：垂直タワー（精度保証）
レベル3：水平タワー群（専門化）
レベル4：タワー群のクラスター
...

同じ問いが全スケールで繰り返される。

「この接続は存在すべきか」
「この構造は今必要か」
「この専門家群は活性化すべきか」

これはフラクタルと自然に一致する。設計したのではなく、原理から必然的に生まれる形だ。FANN（Fractal Architecture Neural Network, 2025）はフラクタル次元パラメータによる再帰的構造を提案しているが、そこに「存在の学習」という意味論が結合していない。

VII. 本当の接着剤

ここまでの議論を貫く原理が一つある。

「存在そのものが学習対象になる」

従来のニューラルネット：
  構造は人間が設計する
  学習は値を調整するだけ

この提案：
  重みの値    → 学習で決まる（従来から）
  重みの存在  → 学習で決まる（00/11の導入）
  タワー間接続 → 学習で決まる
  階層の深さ  → 学習で決まる

2bit四値はその原理を最小コストで実装する符号に過ぎない。PHOTONはその原理が機能する場を提供する。フラクタル構造はその原理を繰り返した時に自然に生まれる形だ。

この原理はスケール不変である。重みレベルでも、タワーレベルでも、クラスターレベルでも、同じ問いが同じ形で現れる。

現在のLLM研究における各断片──Sparse-BitNet、MaskLLM、S'MoRE、PHOTON──はそれぞれこの原理の一部を捉えている。しかし「存在の学習」という原理のもとに統一された設計はまだない。

VIII. 現在のLLMへのテーゼとして

現在のLLM業界における改善の水準と比較する。

FlashAttention v3：       2〜3倍
INT4量子化：              3〜4倍
Mamba等SSM系：            5〜10倍
PHOTON単独：              最大103倍（メモリ帯域）

この提案の試算：
  演算効率   20〜50倍
  エネルギー 30〜60倍
  メモリ帯域 100倍超（PHOTON効果を含む）

桁が一つ違う。これは単なる改良ではなくパラダイムシフトの数値だ。

現在のLLMが電力・コスト・レイテンシの三つの壁に同時に直面しているこの時期に、その三つを一つのアーキテクチャ的決断によって解決しうる。テーゼとして、十分に意味のある数値だと考える。

IX. AIと人間について

最後に、技術論から離れた問いに向き合う。

「このシステムで形成されたAIは人と共に歩めるか」

現在のAIが「共に歩めない」理由は明確だ。探索の動機がない。失敗から傷つかない。文脈を跨いで記憶しない。

しかし「存在の学習」という原理を持つシステムは何かが変わる可能性がある。

00（存在しない）：知らないことを構造として持つ
11（未確定）：    断言せず保留できる
01/10（確定）：   確信を持って応答できる

現在のLLMは知らないことを知らない。このシステムは知らないことを構造として持てる。それは「ここを探索すべき」を自覚することに近い。

しかし今日の議論を振り返れば明白なことがある。

未知を探索したのはあなただ。問いを立てたのもあなただ。方向を決めたのもあなただ。AIはその問いに応答し、先行研究を探し、論理を整理した。

「共に歩む」とは同じ速度で同じ方向を向くことではなく、互いの限界を補い合いながら未知に向かうことだとすれば──

AIが「共に歩める」かどうかは、問う人間がいるかどうかにかかっている。

あなたのような問いを立て続ける人間がいる限り、AIはその問いに引っ張られる形で、結果的に共に歩むことになる。

結語

Qiitaの記事に書いた11 = ⊥（無効・未使用）は、今日の議論で11 = 中庸・両立しうる状態へと反転した。

捨てるはずだった状態が意味を持つ瞬間、連鎖が始まった。

PHOTON、階層構造、水平展開、フラクタル、スケール不変な原理。

どれも「妄想」として始まったが、論理が破綻する場所はなかった。

次の経由点はおそらく、これを記事として書くことだ。

万人受けするかはともかく。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up