はじめに
生成AIは、どのモデルを選ぶかが重要な段階に入っています。
ただ、モデル選定では性能だけを見ればよいわけではありません。
どこまで公開されているか、そして どのようなライセンスで提供されているか も、実務では重要な判断材料になります。
最近は、Llama、Gemma、Qwen、Mistral、DeepSeek、OLMo など、公開されているモデルの選択肢が一気に増えました。
一方で、それらが同じ意味で「オープン」と語られることも多く、話がややこしくなりがちです。
特に混同されやすいのが、「オープンソースAI」と「オープンウェイトAI」 です。
この記事では、こうした公開されたAIモデルを対象に、何をもって「オープン」と見るのかを出発点として、公開範囲・ライセンス・運用性 の観点から整理します。
想定読者は、中級〜上級のエンジニアです。
生成AIの技術選定、技術広報、アーキテクチャ検討に関わる人を主な対象にしています。
目次
- 対象読者
- この記事でわかること
- 全体像
- 基本概念
- オープンソースAIとオープンウェイトAIの違い
- なぜ今、「どこまで公開されているか」が重要なのか
- 主要モデル比較
- 選定手順
- よくある落とし穴と対策
- まとめと次のステップ
対象読者
- 「オープンソースAI」と「オープンウェイトAI」の違いを整理したい人
- 自社環境で動かせる生成AIの選択肢を把握したい人
- Llama / Gemma / Qwen / Mistral / OLMo / DeepSeek の違いをざっくり掴みたい人
- 技術記事や社内説明資料で、雑に「OSS AI」と書いて炎上したくない人
- ベンチマークやライセンスをどう読めばよいか悩んでいる人
この記事でわかること
- オープンソースAIとオープンウェイトAIの違い
- 代表的な公開モデルの立ち位置
- モデル選定で見るべき観点
- ライセンス確認で見落としやすいポイント
- ベンチマークと実運用を混同しないための考え方
- 実務で「まず何を確認すべきか」の順番
本編
全体像
公開されたAIモデルを考えるときに大事なのは、単に「公開されているかどうか」ではありません。
何が公開されているか で見ることが重要です。
特に OSI は、Open Source AI であるためには、重みが公開されているだけでは足りないとしています。
重視しているのは、Data Information、Code、Parameters が、修正可能な形で利用できること です。 (Open Source Initiative)
そのため、実務でよく見る「重みはダウンロードできるモデル」は、便利ではあっても、厳密には open source ではなく open-weight と呼んだほうが正確なケースが少なくありません。 (Open Source Initiative)
基本概念
まず押さえたいのが、OSI の Open Source AI Definition です。
OSI は Open Source AI について、利用・調査・改変・再配布の自由を認めるだけでなく、その前提として preferred form to make modifications が必要だとしています。
そして、その中身として少なくとも Data Information、Code、Parameters を挙げています。 (Open Source Initiative)
この定義に沿って整理すると、ざっくり次の3つに分けられます。
-
フルオープン志向
学習データの情報、学習・推論コード、重み・パラメータまで揃っていて、再現性や透明性を重視する立場です。Ai2 の OLMo 系は、この方向を強く志向しています。Ai2 自身も OLMo 2 をfully-openと位置づけています。 (allenai.org) -
オープンウェイト
重みや一部コードは公開されているものの、学習データの全体像や再現可能な訓練パイプラインまでは揃っていない状態です。Gemma は Google 自身が「オープン重み付き」と表現しています。 (Google AI for Developers) -
クローズドAPI
API 経由では使えるものの、重み・学習コード・訓練データ情報は非公開です。この記事の主題はここではありません。
この違いは、言葉の細かい定義争いではありません。
自社で長期運用したいのか、監査性が欲しいのか、再学習や蒸留まで視野に入れるのか、あるいはローカル実行だけできれば十分なのか。
その判断に直結する違いです。 (Open Source Initiative)
オープンソースAIとオープンウェイトAIの違い
ここまでの話を、実務向けに一度表で整理すると次のようになります。
| 観点 | オープンソースAI | オープンウェイトAI |
|---|---|---|
| 主に公開されるもの | Data Information / Code / Parameters | 主に重み、場合によって一部コード |
| 改変可能性 | 高い | 限定的なことが多い |
| 再現性 | 高い | 低めになりやすい |
| 監査性 | 高い | 限定的 |
| 実務上の主な利点 | 透明性、再現性、研究用途との相性 | 導入しやすさ、ローカル実行のしやすさ |
| 代表例 | OLMo 系 | Gemma、Llama、Qwen の多く、DeepSeek 系など |
もちろん実際には連続的なスペクトラムで、きれいに二分できるわけではありません。
それでも、「何が公開されていて、どこまで手を入れられるのか」 という観点で分けると、実務上はかなり整理しやすくなります。
なぜ今、「どこまで公開されているか」が重要なのか
理由は大きく3つあります。
-
ローカル運用がかなり現実的になってきた
Mistral Small 3.1 は、単一の RTX 4090 あるいは 32GB RAM の Mac でも動かせると案内されています。Gemma 3 も複数サイズと量子化前提のメモリ見積もりが公開されており、「巨大GPUがないと何もできない」時代ではなくなってきました。 (Mistral AI) -
公開範囲そのものがガバナンス要件になってきた
学習資産や利用条件が見えないモデルは、社内説明や再配布判断で詰まりやすいです。OSI の議論以降、「何がどこまで開いているか」を明記する重要性はかなり上がりました。 (Open Source Initiative) -
選択肢が増え、用途別の棲み分けが進んだ
小型、多言語、長コンテキスト、推論特化、コーディング特化など、公開されたモデルの個性がかなりはっきりしてきました。Gemma 3 は 140 以上の言語をサポートし、Qwen2.5 は多サイズ展開と長コンテキストを打ち出しています。DeepSeek-R1 は推論特化モデルとして強い存在感を持っています。 (Google AI for Developers)
主要モデル比較
ここでは「どれが最強か」ではなく、何を重視したモデルなのか で見ていきます。
OLMo:透明性と再現性を重視した代表例
Ai2 は OLMo 2 を fully-open と位置づけ、pre-training / mid-training / post-training を通じたデータやモデル資産を公開しています。
さらに OLMo 2 32B については、7B / 13B 系のレシピを拡張し、6T tokens まで学習したと説明しています。 (allenai.org)
研究再現性や透明性を重視するなら、まず最初に見るべき系譜です。
Mistral:実務で扱いやすい公開モデル
Mistral Small 3.1 は Apache 2.0 で公開され、画像理解、function calling、長コンテキストなど、実運用で欲しい要素を揃えています。
そのうえで軽量性も意識されていて、ローカル実行のしやすさも前面に出しています。 (Mistral AI)
公開されていて、しかも現場で回しやすいモデルを探すときの代表候補です。
Gemma:オープンウェイトを明示したコンパクト路線
Gemma 3 は Google が公式に「オープン重み付き」と案内しており、1B / 4B / 12B / 27B のサイズ展開があります。
メモリ見積もりも公開されていて、たとえば INT4 では 4B が約 3.2GB、12B が約 8.2GB、27B が約 19.9GB です。 (Google AI for Developers)
また、Gemma 3 は画像とテキストを扱えるマルチモーダル系ですが、1B はテキスト専用 です。
小さめのサイズで扱いやすい公開モデルを探すときに有力ですが、利用には Gemma Terms of Use が付く点は必ず確認したいところです。 (Google AI for Developers)
Llama:公開度は高いが、厳密には community license
Llama 3.3 は広く使われている有力候補です。
ただし Meta の資料では Llama Materials を proprietary と表現しており、Community License で提供されています。 (Hugging Face)
そのため、実用性やエコシステムの広さは高い一方で、「OSI の意味での Open Source AI」と単純に言い切るのは避けたほうが安全です。
Qwen:サイズ展開が厚く、用途別に選びやすい
Qwen2.5 は 0.5B〜72B の幅広いサイズを展開しています。
ただし、ここで大事なのは、ファミリー名だけでは判断できない ことです。
たとえば、0.5B / 1.5B / 7B / 14B / 32B などは Apache 2.0 ですが、3B は Qwen Research License、72B は Qwen License です。
コンテキスト長も一律ではなく、0.5B / 1.5B / 3B は 32K、7B / 14B / 32B / 72B は 128K です。 (Qwen)
つまり、「Qwen は OSS」と一括りにするのではなく、どのモデルがどのライセンスで、どの仕様か をモデル単位で確認する必要があります。
DeepSeek-R1:推論特化で注目を集めた公開モデル
DeepSeek-R1 は推論特化モデルとして非常に注目を集めました。
公式リポジトリでは、R1 本体を 671B total / 37B activated / 128K context としています。さらに 1.5B〜70B の Distill 系も公開されています。 (GitHub)
ただし、ここでも注意点があります。
DeepSeek-R1 リポジトリ自体は MIT License ですが、Distill 系には Qwen ベースや Llama ベースの派生モデルが含まれます。
そのため、「DeepSeek ファミリー全体が一律で MIT」と理解するのは危険です。派生元のライセンスも合わせて確認したほうが安全です。 (GitHub)
選定手順
実装より前に、次の順で絞ると迷いにくくなります。
1. まず「何を公開していてほしいか」を決める
- 重みが使えれば十分か
- 学習コードも必要か
- データ情報まで欲しいか
研究用途や再現性重視なら OLMo 系、商用実装や社内検証のスピード重視なら Mistral / Gemma / Qwen / Llama / DeepSeek のような公開モデル群、という整理がしやすいです。 (allenai.org)
2. 次にライセンスでふるいにかける
- Apache 2.0 は比較的扱いやすい
- MIT も扱いやすい
- Community License や Terms of Use は追加条件を読む必要がある
- 同じファミリーでもモデルごとに条件が違うことがある
Llama は community license、Gemma は Terms of Use、Qwen はモデルによって Apache 2.0 / Research License / 独自ライセンスが混在します。
ここを飛ばすと、あとで法務やガバナンスの観点で差し戻されがちです。 (Hugging Face)
3. そのうえでサイズと運用コストを見る
重要なのは、「いちばん賢いモデル」を選ぶことではありません。
自社で回るモデルを選ぶこと です。
Mistral Small 3.1 が単一 4090 / 32GB Mac を想定し、Gemma 3 が量子化別のメモリ見積もりを公開しているのは、この観点を公式側も強く意識しているからです。 (Mistral AI)
4. モダリティとコンテキスト長を確認する
- テキストだけでよいか
- 画像理解が必要か
- 長文処理は必要か
Gemma 3 は 1B を除き画像入力を扱え、長コンテキストにも対応しています。Qwen2.5 の上位サイズや DeepSeek-R1 も長いコンテキスト長を持っています。
ユースケースによっては、この時点でかなり候補が絞れます。 (Google AI for Developers)
5. 最後にベンチマークの見え方を疑う
Leaderboard は便利です。
ただし、ランキング上位だから即採用、とはなりません。
Hugging Face の Open LLM Leaderboard では、公式ベンダーの素のモデルだけでなく、community fine-tune や merge 系の派生モデルも多く並びます。
つまり、その順位が、どの系譜のモデルで、どの評価条件で出たものか を確認する必要があります。 (Hugging Face)
よくある落とし穴と対策
落とし穴1:「重みが公開されている = オープンソース」
これはいちばん多い誤解です。
OSI の定義では、Data Information、Code、Parameters まで含めた「修正可能な形」が重要です。
重みだけ公開されているモデルは、便利ではあっても、厳密には open-weight と呼んだほうが安全です。 (Open Source Initiative)
落とし穴2:ファミリー名だけでライセンスを判断する
Qwen のように、同じファミリーでも Apache 2.0 と別ライセンスが混在するケースがあります。
「Qwen だからOK」「Llama だからOSS」ではなく、モデル名単位で確認する のが基本です。 (Qwen)
落とし穴3:ベンチマーク上位をそのまま本番適性だと考える
Leaderboard は有用ですが、そこで測っているのは限られたベンチセットです。
しかも上位には派生モデルも多く、素のモデルの安全制御や運用しやすさとは別軸の強さで勝っている場合もあります。
ベースモデル選定と、本番適性評価は分けて考えたほうが安全です。 (Hugging Face)
落とし穴4:小型モデルの軽さだけ見て期待値を上げすぎる
Gemma や Mistral のように、小型で実行しやすいモデルは増えました。
ただし、軽さはあくまで「導入しやすさ」です。
すべての業務タスクに十分 という意味ではありません。
サイズ、量子化、応答品質のバランスを前提に評価する必要があります。 (Mistral AI)
まとめと次のステップ
要点を絞ると、次の通りです。
- いまの「オープンなAIモデル」は、実際には フルオープン志向 / オープンウェイト / 独自条件付き公開 のスペクトラムで見るのが実務的です。 (Open Source Initiative)
- 透明性と再現性を最優先するなら、Ai2 が fully-open と位置づける OLMo 系はわかりやすい候補です。 (allenai.org)
- 実務導入しやすさでは、Mistral、Gemma、Qwen、Llama、DeepSeek などが有力ですが、ライセンスと公開範囲はそれぞれ異なります。 (Mistral AI)
- 選定の順番は、公開度 → ライセンス → 運用コスト → モダリティ/コンテキスト → ベンチの読み方 です。
次のアクションとしては、まず OSI の定義を基準に、自社が必要とする「公開度」を決めるのがおすすめです。
そのあとで、候補モデルの公式ライセンスとモデルカードを横並びで読むと、「オープン」の意味の違いがかなりクリアに見えてきます。 (Open Source Initiative)
免責事項: 本記事は当社が確認した時点の情報に基づく参考情報であり、正確性・完全性・最新性を保証せず、利用により生じたいかなる損害についても弊社は責任を負いません。