海外LLMを日本仕様に「再調整」する — Sakana AI Namazuの事後学習技術が開く新しい可能性
海外製の大規模言語モデルを使っていて、何か違和感を感じたことはないでしょうか。
政治的な話題になると急に口をつぐむ。日本の歴史や外交について聞いても、どこかよそよそしい回答が返ってくる。あるいは、単に「その質問にはお答えできません」と門前払いをくらう。
これ、実はモデルそのものの性能が低いわけではないんです。そのモデルが、どこか別の国で、別の価値観で、別の法的要件に合わせて作られているから。当たり前といえば当たり先なんですが、使っている側からするとちょっと不便ですよね。
2026年3月24日、東京のAI研究企業Sakana AIが、この問題に正面から取り組む技術を発表しました。「Namazu」というコードネームで呼ばれるこの取り組みは、既存のオープンウェイトモデルをベースに、日本という文脈に合わせて「再調整」する事後学習技術です。
この記事では、Namazuが何を可能にするのか、技術的にどう実現しているのか、そして私たち開発者にとって何が嬉しいのかを整理していこうと思います。
Namazuとは何か — 3つのモデルとその狙い
まずは全体像を押さえておきましょう。
Sakana AIが発表したNamazuシリーズは、3つのモデルで構成されています。
Namazu-DeepSeek-V3.1-Terminus
もっとも高性能なモデルです。DeepSeek-V3.1-Terminusという、開発時点で世界最高水準の性能を持つオープンウェイトモデルをベースにしています。推論能力、コーディング能力、多言語対応など、フロンティアモデルとして必要な要素を備えています。
Llama-3.1-Namazu-405B
MetaのLlama-3.1-405Bをベースにしています。405Bというとてつもないパラメータ数のモデルを、日本仕様に適応させたものです。MetaのLlamaシリーズは、オープンウェイトモデルの中でも特に広く使われており、エコシステムも充実しています。
Namazu-gpt-oss-120B
OpenAIが公開しているOSSモデルをベースにしています。OpenAIの技術的なアプローチを取り入れつつ、日本の文脈に適応させています。
ここで重要なのは、Sakana AIが「ゼロから新しいモデルを作った」わけではないという点です。すでに存在する、性能が実証されているオープンウェイトモデルをベースに、その後から「日本仕様への適応」を行っている。これが「事後学習(post-training)」というアプローチです。
ちょっと言い換えてみましょう。
海外のメーカーが作った高性能なスポーツカーがあるとします。エンジンは素晴らしいし、ボディの剛性も高い。でも、日本の道路事情や法規制に合わせて、サスペンションを調整したり、カタログの表記を変えたりする。そんなイメージです。
本体の設計からやり直す必要はない。調整だけで、日本で使いやすくなる。これがNamazuの基本的な発想です。
この発想は、ある意味で当たり前のことのように聞こえるかもしれません。でも、実際にやるのは簡単ではありません。ベースモデルの能力を損なわずに、特定の文脈に適応させる。これは技術的にかなり難易度の高い課題なんです。
技術の中身 — どうやって日本仕様にするのか
では、具体的にどうやって「日本仕様」にしているのでしょうか。
Sakana AIのアプローチは、大きく分けて2つの要素で構成されています。ここをもう少し深掘りしてみましょう。
独自データセットの構築
まず、日本の文化的・社会的文脈においてバイアスを是正するためのデータセットを構築しています。これは単に「日本語のテキストを増やす」という話ではありません。
政治、歴史、外交といったデリケートなトピックについて、日本の視点や文脈が反映されるようなデータセットです。海外のモデルには、その国の政治的配慮や法的制約が反映されていることがあります。それを上書きするのではなく、補完するようなイメージです。
例えば、ある国では「敏感な話題」として扱われるトピックが、日本では普通に議論されていることもある。逆に、日本では重要視される文脈が、海外のモデルでは軽視されていることもある。こうした「文脈のズレ」を埋めるデータセットを作る。それがNamazuのアプローチです。
データセットの構築には、おそらく以下のような要素が含まれていると推測されます:
- 日本の歴史的・政治的トピックに関するバランスの取れた情報
- 日本の文化的・社会的背景を反映したテキスト
- 他国のモデルが「回答拒否」しがちなトピックについての客観的な情報
- 中立的・多角的な視点を提供するための対話データ
能力を損なわない工夫
ここが技術的に面白いところなんですが、事後学習をすると「元の能力が落ちる」というリスクがあります。日本語に特化しすぎて、英語の能力が下がったり、プログラミング能力が落ちたりする。これは「破滅的忘却」と呼ばれる現象で、機械学習の分野では長年議論されてきた課題です。
Namazuの技術では、このバランスをうまく取っています。ベンチマーク結果を見ると、基礎的な推論能力やコーディング能力は、ベースモデルとほぼ同等を維持しています。
どうやっているのか、正確な技術詳細は公開されていませんが、一般的には以下のようなアプローチが考えられます:
学習率の調整
既存の知識を壊さないように、学習率を慎重に調整する。小さすぎると学習が進まず、大きすぎると破滅的忘却が起きる。このバランスを見つけるのが技術のポイントです。
混合データセットの活用
日本語データだけでなく、元の能力を維持するためのデータも混ぜて学習する。例えば、数学やコーディングのデータを含めることで、これらの能力を維持する。
段階的な学習
一度に全てを学習するのではなく、段階的に適応させる。まず基礎的な日本語能力を高め、その後でより高度な文脈理解を追加する、といったアプローチです。
「日本仕様にする」と「性能を落とす」は別の話なんですね。うまくやれば両立できる。これがNamazuが示している技術的なポイントです。
特定モデルに依存しない汎用性
もう一つ重要なのは、この技術が特定のベースモデルに依存していないということです。DeepSeekでもLlamaでも、他のオープンウェイトモデルでも応用できます。
これは将来的にかなり意味が大きいです。新しい、より高性能なモデルが出てくるたびに、それを日本仕様に適応させられる。毎回ゼロから日本語モデルをトレーニングし直す必要がない。
LLMの進化スピードを考えると、これは大きなアドバンテージです。数ヶ月ごとに新しいモデルが出てくる中で、毎回数億円規模のトレーニングをやり直すのは現実的ではありません。でも、「事後学習」であれば、比較的少ないリソースで最新モデルに対応できる。
ベンチマークで見る実力 — 何が変わったのか
数値で見てみましょう。Sakana AIが公開しているベンチマーク結果は、大きく3つの観点で評価されています。それぞれ見ていきましょう。
基礎能力の評価
AIME'25、MMLU-Redux、GPQA Diamond、LiveCodeBench、IFEvalといった標準的なベンチマークでの評価です。
- AIME'25: アメリカの数学オリンピックの問題で推論能力を測る
- MMLU-Redux: 57の科目にわたる知識を測る
- GPQA Diamond: 博士レベルの科学問題で推論能力を測る
- LiveCodeBench: コーディング能力を測る
- IFEval: 指示従順性を測る
結果は、ベースモデルとほぼ同等。つまり、事後学習によって基礎的な推論能力や知識、コーディング能力は損なわれていないということです。
これは技術的にかなり難しいことで、単に日本語データを追加学習すればいいという話ではないことがわかります。「日本仕様にする」という操作が、「能力を落とす」という副作用を起こさないようにする。これがNamazuの技術的な肝です。
中立性と事実正確性の評価
ここがNamazuの最大の特徴です。
日本と他国に関連する政治・歴史・外交テーマについて、回答の中立性と事実の正確性を独自のベンチマークで評価しています。
評価軸は2つです:
- 中立性: 客観的な立場からの多角的な情報提示ができているか
- 正確性: 事実の網羅性が確保されているか
結果は、ベースモデルに比べて大幅な改善。つまり、特定の国や組織に偏らず、客観的な情報を提示できるようになっているということです。
特に興味深いのが回答拒否率の変化です。
DeepSeek-V3.1-Terminus(ベースモデル)は、政治的にデリケートな質問に対して72%の確率で回答を拒否していました。「申し訳ありませんが、そのトピックについてはお答えできません」のような返答です。
これに対し、Namazu-DeepSeek-V3.1-Terminusでは、この回答拒否がほぼ0%にまで改善されています。
72%からほぼ0%。これは劇的な変化です。
海外のモデルには、その国の法的・政治的配慮から、特定のトピックについて回答を避ける傾向があります。これはモデルが「悪い」わけではなく、その国の文脈では合理的な設計です。でも、日本で使うとなると、そのままでは使いづらい。
例えば、国際情勢について分析したいときに「そのトピックにはお答えできません」と返されたら、ビジネス用途では困りますよね。
Namazuは、この「外部的な制約」を技術的に取り除きつつ、モデル本来の能力は維持している。これが事後学習技術の巧みさです。
日本語能力の評価
Nejumi Leaderboard4、Swallow LLM LeaderBoard v2、JamC-QAといった日本語ベンチマークでの評価です。
- Nejumi Leaderboard4: 日本語理解・生成能力を総合的に評価
- Swallow LLM LeaderBoard v2: 日本語特化のベンチマーク
- JamC-QA: 日本語の質問応答能力を評価
結果は、ベースモデルや同規模の他社モデルと同等程度の性能。つまり、無理に日本語特化にして、他の能力を犠牲にしているわけではない、バランスの良い調整ができているということです。
Sakana Chatで体験する — 実際に使ってみる
理屈はわかった。じゃあ実際にどうやって使うのか。
Sakana AIは、Namazuモデルを搭載したチャットサービス「Sakana Chat」を公開しています。
https://chat.sakana.ai/
このURLにアクセスするだけで、Namazuモデルを無料で試すことができます。アカウント登録が必要ですが、すぐに使い始められます。
Web検索機能との連携
Sakana ChatにはWeb検索機能が備わっています。リアルタイムで情報を検索して、その結果を踏まえた回答を生成してくれます。
例えば、「今朝のニュースから、AI研究に関する国内外の動向を比較して」と聞くと、Web検索を使って最新のニュース情報を収集し、複数のソースから情報を整理して回答してくれます。
この機能は、情報の鮮度が重要なタスクで特に役立ちます。例えば:
- 最新の技術動向を調べる
- 昨日のニュースをまとめる
- 時事問題の背景を理解する
実際の使いどころ
どんなシーンでNamazuが役立つのか、いくつかの例を考えてみましょう。
1. 国際情勢の分析
政治的なトピックについて、中立的な視点で情報を得たいとき。海外のモデルだと回答拒否されることがあるトピックでも、Namazuなら客観的な情報を得られる可能性があります。
2. 日本語での文章作成
日本の文化的文脈を理解した上で、文章を生成したいとき。単に日本語ができるだけでなく、「日本らしさ」を反映した文章が必要なケースです。
3. 研究・調査
日本の歴史や社会について、バランスの取れた情報を得たいとき。海外のモデルでは偏った視点になりがちなトピックについて、より中立的な分析が得られる可能性があります。
他モデルとの使い分け
ここで一つ考えておきたいのが、他のモデルとの使い分けです。
例えば:
- コーディングタスク → Claude CodeやGPT-5.4を使う
- 日本語での文章作成 → Namazuを使う
- 政治的なトピック → Namazuが適している可能性
- 一般的な質問応答 → どのモデルでも問題ないことが多い
「どれか一つを選ぶ」というよりは、「目的に応じて使い分ける」という考え方です。ツールボックスに複数の道具を持っておいて、作業内容に合わせて使い分けるのと同じです。
開発者にとっての意義 — これを知って何が嬉しいのか
ここまで技術的な内容を見てきました。では、これを知っていると私たち開発者にとって何が嬉しいのでしょうか。
エンタープライズでの採用
企業でLLMを導入する場合、セキュリティやコンプライアンスの観点が重要になります。海外のモデルをそのまま使うには、そのモデルがどのようなバイアスを持っているか、どのような回答拒否が発生する可能性があるかを把握しておく必要があります。
特に金融、医療、公共インフラといった規制の厳しい業界では、モデルの「振る舞い」をコントロールできることが重要です。海外のモデルが突然「政治的な発言」をしたり、逆に「重要な質問に答えない」という事態は避けたいところです。
Namazuのような技術があれば、海外の高性能なモデルをベースにしつつ、日本の文脈に合わせた調整ができる。これにより、導入のハードルが下がる可能性があります。
安全性と利便性の両立
「安全だからといって性能を犠牲にする」あるいは「性能を求めるなら安全は妥協する」という二者択一ではなく、両方を追求できる。これがNamazuが示している可能性です。
基礎能力を維持しながら、中立性と事実正確性を改善する。技術的には難しいことですが、実現できている。これは今後のLLM活用の幅を広げることにつながります。
オープンウェイトモデルの新しい活用法
Namazuはオープンウェイトモデルをベースにしています。つまり、モデルの重みが公開されていて、誰でもダウンロードして使えるモデルです。
これまでは、「オープンウェイトモデルを使うなら、そのまま使うか、自分でファインチューニングするか」のどちらかでした。Namazuのような事後学習技術が公開されれば、「ベースモデルを選んで、それを自分の文脈に合わせて調整する」という第三の選択肢が増えます。
もし将来的に、この事後学習技術そのものが公開されれば、開発者は自分のユースケースに合わせた「カスタムNamazu」を作れるようになるかもしれません。例えば:
- 特定の業界に特化したモデル
- 特定の企業のガイドラインに適合したモデル
- 特定の地域の文脈を理解したモデル
今後の展望
Sakana AIは、今回の技術実証を第一弾として位置づけています。今後は、複数モデルの最適制御技術やエージェント技術を統合することで、チャットサービスにとどまらない多角的なAIソリューションの提供を目指しているようです。
技術自体も、特定のベースモデルに依存しないため、今後登場するより高性能なモデルにも応用できるはずです。LLMの進化スピードを考えると、これは大きな意味を持ちます。
おわりに — 日本発の技術選択肢
海外のテック大手が主導するAI開発の中で、日本発の技術がどのような位置を占めるのか。これは多くの人が気にしているテーマだと思います。
Namazuは、「海外のモデルをそのまま使う」でも「ゼロから国産モデルを作る」でもない、第3の道を示しています。既存の優れた技術をベースにしつつ、日本の文脈に合わせて調整する。そのための技術を磨く。
このアプローチは、日本の技術的な主権を確保する上でも意味があるかもしれません。すべてを海外に依存するのではなく、必要な部分は自分たちで調整できる技術を持っておく。
もちろん、Namazuはまだα版です。これからどのように進化していくか、実際のプロダクション環境でどう使われていくかは未知数です。
でも、技術的な選択肢が増えることは、私たち開発者にとって悪いことではありません。目的に応じて最適なツールを選べる。それが理想の状態です。
Sakana Chatで実際にNamazuを試してみて、自分のユースケースでどう使えるかを考えてみる。それが、この記事を読んだ後の最初の一歩になるかもしれません。