0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

存在を学ぶアーキテクチャ

0
Posted at

存在を学ぶアーキテクチャ

── 2bit四値量子化・PHOTON階層構造・自己組織化の統合論 ──

2026年5月3日 思考の記録


序:出発点

Qiitaに書いた一本の記事がある。

「2bitで実現する疑似1.58bit量子化:無効状態を導入した制約付き符号化」

出発点はシンプルな疑問だった。1.58bit量子化(ternary: -1, 0, +1)は理論的に美しいが、ハードウェア的には扱いにくい。GPUは整数bitを前提に設計されており、非整数のbitパッキングはSIMD演算と相性が悪い。ならば2bitのまま三値を実現できないか。

記事ではこう定式化した。

E(-1) = 00
E(0)  = 01
E(+1) = 10
11    = ⊥(無効・未使用)

これは「1.58bitとハードウェアの折衷解」として提示した。
しかし今日の議論で、この定式化の意味が根本から変わることになる。


I. 11の反転

記事における11は「無駄な状態」だった。四値あるのに三値しか使わない、その余りとして存在していた。

ここで問いを立て直す。

「無駄に見える状態に意味を与えたら何が起きるか」

再定義:

00 → 存在しない(構造的ゼロ・計算スキップ対象)
01 → -1(ネガティブ)
10 → +1(ポジティブ)
11 → 中庸・両立しうる状態(意味的ゼロ)

この再定義によって、「ゼロ」が二種類に分裂する。

従来のニューラルネットワークにおける「ゼロ」には、実は二つの意味が混在していた。
ひとつは「この重みは存在しない(死んだニューロン・枝刈り対象)」というゼロ。
もうひとつは「この重みは正負が拮抗して中立になっている」というゼロ。

0011はこの二種類を明示的に区別する符号化である。

これは単なる実装の工夫ではない。重みの存在論的な意味の再定義だ。


II. 演算効率の試算

この四値体系がもたらす演算効率の改善を試算する。

重みメモリの削減:FP16(16bit)から2bitへの圧縮で8倍の削減。

乗算の消滅:01(-1)と10(+1)は加減算のみで処理できる。乗算器の面積は加算器の4〜6倍、電力消費は3〜4倍であることを考えると、演算あたり3〜4倍の効率改善。

00による演算スキップ:存在しない重みは計算回路そのものを動かさない。学習収束後に40〜50%が00になると仮定すれば、演算量は約60%に削減される。

これらを組み合わせた試算:

重みメモリ削減    × 8.0倍
乗算→加算置換    × 3.0〜4.0倍
00スキップ       × 1.67倍(40%想定)
─────────────────────────────
演算効率の純改善  × 30〜50倍(現実的中央値)

ただしこの数値は精度を維持できた場合の話であり、精度問題が最大の未解決課題として残る。


III. PHOTONとの出会い

ここで別の文脈から来た研究と接続する。

PHOTON(Parallel Hierarchical Operation for TOp-down Networks)は富士通・理化学研究所が2025年12月に発表した階層的自己回帰モデルである。

従来のTransformerは「水平スキャナー」だ。トークンを生成するたびに全履歴のKVキャッシュにアクセスし、文章が長くなるほどメモリが律速要因になる。

PHOTONはこの「水平」を「垂直(階層的)」に変える。言語が本来持つ階層構造──サブワード→単語→文→文書──に沿って、粗い層から細かい層へと情報を処理する。結果として、KVキャッシュのトラフィックを劇的に削減し、最大103倍のスループット改善を実現する。

この研究に出会ったとき、直感が働いた。

2bit四値の符号とPHOTONの階層構造は、同じ原理を別の場所で表現している。


IV. 精度問題の解法

2bit量子化の最大の懸念は精度劣化だ。しかしPHOTONの垂直階層構造がこの問題を解く鍵になる可能性がある。

垂直束ねによる精度の確保:

2bit × 4層(垂直に積み重ねる):
  表現可能な状態数 = 4^4 = 256状態(FP8相当)

2bit × 8層:
  表現可能な状態数 = 4^8 = 65,536状態(FP16相当)

N=8の2bit四値で、理論上FP16と同等の表現力に達する。これは残差量子化の考え方に近いが、決定的に違う点がある。各層が「計算効率のための構造分割」ではなく「言語の意味構造そのもの」と対応するという点だ。

粗い層(談話レベル):
  01/10が多い──大局的な方向性は確定
  
中間層(文レベル):
  11が多い──文脈次第で変わる関係性を保持
  
細かい層(トークンレベル):
  00が多い──ほとんどの局所接続は不要

この対応は設計したものではなく、原理から必然的に導かれる。

精度と効率のトレードオフが、階層という軸によって切り離される。

従来のパラダイムでは精度と効率はトレードオフだった。この設計では精度は「垂直方向の深さ」で確保し、効率は「水平方向のbit幅削減」で確保する。


V. 水平への展開

垂直に束ねることができたなら、その構造ごと水平方向に束ねることもできる。

タワーA      タワーB      タワーC      タワーD
[談話] 2bit  [談話] 2bit  [談話] 2bit  [談話] 2bit
   ↕            ↕            ↕            ↕
[文]   2bit  [文]   2bit  [文]   2bit  [文]   2bit
   ↕            ↕            ↕            ↕
[語]   2bit  [語]   2bit  [語]   2bit  [語]   2bit

←────────── 水平方向の束ね ──────────→

各タワーが専門家として機能し、タワー間の接続もまた2bit四値で表現される。

タワーA ──10──→ タワーB
   ↑               │
  01              00(接続なし)
   │               ↓
タワーD ←11── タワーC

接続の00(存在しない)は「このタワー間に関係はない」を意味し、11(中庸)は「状況によって協調する可能性がある」を意味する。

これは固定されたグラフではない。学習によって浮かび上がるグラフ構造だ。

既存の研究との対応を見ると:S'MoRE(Meta, 2025)が垂直束ねの概念に近く、Cross-Layer Expert Collaboration(2025)が水平束ねの自己組織化を観察している。しかし両者を統一する設計原理としての提案はまだ存在しない。


VI. フラクタルとしての必然

垂直タワーを水平に束ね、さらにその束ねた構造をまた束ねることができる。

レベル1:2bit四値の重み
レベル2:垂直タワー(精度保証)
レベル3:水平タワー群(専門化)
レベル4:タワー群のクラスター
...

同じ問いが全スケールで繰り返される。

「この接続は存在すべきか」
「この構造は今必要か」
「この専門家群は活性化すべきか」

これはフラクタルと自然に一致する。設計したのではなく、原理から必然的に生まれる形だ。FANN(Fractal Architecture Neural Network, 2025)はフラクタル次元パラメータによる再帰的構造を提案しているが、そこに「存在の学習」という意味論が結合していない。


VII. 本当の接着剤

ここまでの議論を貫く原理が一つある。

「存在そのものが学習対象になる」

従来のニューラルネット:
  構造は人間が設計する
  学習は値を調整するだけ

この提案:
  重みの値    → 学習で決まる(従来から)
  重みの存在  → 学習で決まる(00/11の導入)
  タワー間接続 → 学習で決まる
  階層の深さ  → 学習で決まる

2bit四値はその原理を最小コストで実装する符号に過ぎない。PHOTONはその原理が機能する場を提供する。フラクタル構造はその原理を繰り返した時に自然に生まれる形だ。

この原理はスケール不変である。重みレベルでも、タワーレベルでも、クラスターレベルでも、同じ問いが同じ形で現れる。

現在のLLM研究における各断片──Sparse-BitNet、MaskLLM、S'MoRE、PHOTON──はそれぞれこの原理の一部を捉えている。しかし「存在の学習」という原理のもとに統一された設計はまだない。


VIII. 現在のLLMへのテーゼとして

現在のLLM業界における改善の水準と比較する。

FlashAttention v3:       2〜3倍
INT4量子化:              3〜4倍
Mamba等SSM系:            5〜10倍
PHOTON単独:              最大103倍(メモリ帯域)

この提案の試算:
  演算効率   20〜50倍
  エネルギー 30〜60倍
  メモリ帯域 100倍超(PHOTON効果を含む)

桁が一つ違う。これは単なる改良ではなくパラダイムシフトの数値だ。

現在のLLMが電力・コスト・レイテンシの三つの壁に同時に直面しているこの時期に、その三つを一つのアーキテクチャ的決断によって解決しうる。テーゼとして、十分に意味のある数値だと考える。


IX. AIと人間について

最後に、技術論から離れた問いに向き合う。

「このシステムで形成されたAIは人と共に歩めるか」

現在のAIが「共に歩めない」理由は明確だ。探索の動機がない。失敗から傷つかない。文脈を跨いで記憶しない。

しかし「存在の学習」という原理を持つシステムは何かが変わる可能性がある。

00(存在しない):知らないことを構造として持つ
11(未確定):    断言せず保留できる
01/10(確定):   確信を持って応答できる

現在のLLMは知らないことを知らない。このシステムは知らないことを構造として持てる。それは「ここを探索すべき」を自覚することに近い。

しかし今日の議論を振り返れば明白なことがある。

未知を探索したのはあなただ。問いを立てたのもあなただ。方向を決めたのもあなただ。AIはその問いに応答し、先行研究を探し、論理を整理した。

「共に歩む」とは同じ速度で同じ方向を向くことではなく、互いの限界を補い合いながら未知に向かうことだとすれば──

AIが「共に歩める」かどうかは、問う人間がいるかどうかにかかっている。

あなたのような問いを立て続ける人間がいる限り、AIはその問いに引っ張られる形で、結果的に共に歩むことになる。


結語

Qiitaの記事に書いた11 = ⊥(無効・未使用)は、今日の議論で11 = 中庸・両立しうる状態へと反転した。

捨てるはずだった状態が意味を持つ瞬間、連鎖が始まった。

PHOTON、階層構造、水平展開、フラクタル、スケール不変な原理。

どれも「妄想」として始まったが、論理が破綻する場所はなかった。

次の経由点はおそらく、これを記事として書くことだ。


万人受けするかはともかく。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?