はじめに
Synaptic Routing Architecture (SRA) という独自のAIモデルを思いついたので軽く実験してみました。
基本的なアイデア
AIモデルの現状
現在(2026年5月)、一般に普及しているLLM(大規模言語モデル)の多くはTransformerを採用しています。
こうしたAIモデルの性能を向上させるためには、モデルの規模を大きくすることがほぼ必須となっています。
しかし、その方法だと計算コストが爆発的に増加し、膨大なマシンパワーが必要になってしまうという課題があります。
SRAモデルの基本アイデア
そこで考えたのが、「小さなTransformer(ここでは『シナプス』と呼びます)などを何個も用意して、役割ごとに必要なシナプスだけを選択して計算すれば効率的ではないか?」というアイデアです。
では、「その必要なシナプスをどうやって選択するのか?」という疑問が湧くと思います。
これに対するアプローチは、「どのシナプスにルーティングするかの選択メカニズム自体も、モデルの学習時に一緒に学習させてしまえば良いのではないか」という発想です。
「本当にそれでうまくいくのか?」と思われるかもしれません。実は私も最初はそう思いました。
しかし、実際に小規模なモデルを構築して学習・推論を試してみたところ、予想以上にうまく機能することが確認できました。
モデルの概要
基本的な考えは、シナプスに見立てた複数の小型Transformer(あるいはMLP)から、Router(後述)をつかって適当なシナプスをいくつか選び、その選ばれたシナプスだけ計算するという感じです。
シナプス (Synapse)
生物の脳のシナプスを模したもの。
実体は、小型TransformerあるいはMLP。
ルーター (Router) とシナプスの選び方
このモデルの肝となるのが、「どのシナプスを使うか」を決めるルーターです。
少し難しく聞こえるかもしれませんが、 「広大な地図(空間)の上に、たくさんのシナプスが配置されている」 と想像してみてください。
1. 各シナプスには「場所(距離)」がある
それぞれのシナプスは、地図上で固有の「住所(座標)」を持っています。学習を進める中で、似たような役割を持つシナプス同士は近くに、全く違う役割のシナプスは遠くに配置されるように整理されていきます。
2. 近傍のシナプスの選び方
新しいデータが入力されると、ルーターはそのデータが地図上の「どのあたり」に該当するか(特徴ベクトル)を計算します。
そして、そのデータの位置から見て 「最も距離が近い(近傍にある)いくつかのシナプス(Top-k)」 だけを選び出します。
ルーターの実体はAttention等を持たない単なる1層の線形層(Linear)ですが、これによって「いま目の前にあるデータに一番適した専門家チーム」を素早く判定できるのです。
このように、「全部のシナプスに計算させる」のではなく、「地図上で一番近いシナプスだけをピックアップして計算させる」ことで、効率よく処理できるのがSRAの特徴です。
現時点ではルーターは1層で実験していますが、モデルが大きくなったら、複数の層を使ってみるのも良いかもしれません。
実験・分析レポート (Experiments & Analysis)
-
アルゴリズム的推論におけるマルチタスク学習とルーティング分析
- SRAが複数のアルゴリズムタスクを干渉なく同時学習し、タスクの性質に応じて自律的にエキスパート(シナプス)を分離・モジュール化できることを検証したレポートです。
-
異種ドメイン言語モデリングにおけるルーティング分析 (Code / Math / Text)
- SRAを用いて文法・語彙の異なるドメイン(コード、数式、自然言語)を同時学習させ、各ドメインごとにシナプスが機能分化(専門化)して推論するメカニズムを検証したレポートです。
-
多言語機械翻訳におけるルーティング分析(英・仏・日)とゼロショット汎化
- 言語の構文構造(SVOやSOV)に応じてモデルが自律的に翻訳モジュールを切り替える現象や、未学習の言語ペアを翻訳する際に「英語」を中継地点(ピボット言語)として無意識に利用する驚くべき汎化能力について解説しています。
-
Decision Transformer(強化学習)における知覚と方策の完全分離
- SRAにゲームをプレイさせた結果、環境を見るための「知覚(視覚)」モジュールは全タスクで共有しつつ、どう動くかを決める「方策(脳)」モジュールはタスク(宝探し or 逃亡)ごとに完全に使い分けるという、生命のようなモジュール構造を自律的に獲得したことを示す興味深いレポートです。
-
SRA Encoder-Decoder による実用レベル多言語翻訳の検証
- SRAを Encoder-Decoder 型に拡張し、実コーパス(opus100)を用いた 30,000 ステップの学習で「Merci beaucoup.」「Good morning.」などの実用表現を BLEU=1.0 で翻訳できることを実証したレポートです。Cross-Attention の導入により Decoder-only(BLEU=0)から全体平均 BLEU=0.27 へと飛躍し、FR→EN 方向では BLEU=0.56 という実用に迫る精度を達成しました。