ローカルLLMの歴史を学んで可能性を考える

Last updated at 2025-09-08Posted at 2025-09-02

はじめに

私はもともと「ローカルで動くLLM」に強い関心があり、これまでにもいくつか記事を書いてきました。クラウドに頼らず、自分のPCやオンプレ環境で大規模モデルを動かすという試みは、技術的な挑戦であると同時に大きな可能性を秘めていると私は考えています。

今回この記事を書いたのは、その流れの中で「ローカルLLMの歴史」をもう一度整理し直したいと感じたからです。Transformerの登場以降、どのように技術が進化してきたのか、またその過程でどのようなモデルが登場してきたのかを振り返ることで、現在のローカルLLMが持つ意味や今後の展望をより鮮明にできるのではないかと考えています！

※一部ソースにWikipediaの内容を含んでいるため不正確な部分があります。(GPT-Neo・GPT-NeoX-20B)
※全てのモデルを紹介しているわけではないです。

本記事の概要

Transformer以降の主要モデルの流れ
gpt-oss-20b/120b が意味すること
ローカルLLMの活用領域とこれから

主要モデルの流れ

2017年

2017年の論文「Attention Is All You Need」でTransformerが登場。自己注意により並列性と表現力を両立し、LLM時代のきっかけとなりました。以後の大半のLLMはTransformer派生です。AI関係のことを学ぶと必ずと言っていいほど出てきますよね〜

2018年～2022年

BERT（2018年）
Transformerを用いた双方向言語モデルの先駆け。約3億パラメータで、主に自然言語理解タスク向けに事前学習されました。オープンモデルとして公開され、以後のNLP研究に多大な影響を与えました。私も研究室時代LLM評価等で利用していました。

GPT-2（2019年）
OpenAIが公開したTransformerアーキテクチャをベースとした自己回帰型の言語モデルで最大モデル(15億)が高品質な文章生成能力を示し話題になりましたが、悪用懸念から段階的公開となりました。最終的に重みが公開され、個人でもGPT-2をローカル実行できるようになりました。私はまだこの頃LLMに出会ってない時代です。。。

GPT-Neo（2021年3月）
EleutherAIが開発したオープンソースのGPT-3クローンモデル。The Pileデータセットで学習され、1.3億・13億・27億パラメータのサイズが公開されました。公開当時、27億パラメータ版は世界最大のオープンGPT系モデルであり、ライセンスはMIT/Apache 2.0で商用利用も可能でした。

GPT-J-6B（2021年6月）
EleutherAIがGPT-Neoに続いて公開した60億パラメータのモデルです。アーキテクチャ的にはGPT-3相当で、JAXライブラリを用いて学習されました。GPT-Neoより性能が向上し、オープンモデルとして多くの下流タスクで利用されました。Apache 2.0ライセンスで提供されています。

GPT-NeoX-20B（2022年2月）
EleutherAIがCoreWeave社などの計算資源提供を受けて公開した200億パラメータのモデルです。これはGPT-Jの約3倍の規模で、当時世界最大のオープンソースLLMとなりました。Apache 2.0ライセンスで公開され、以降の研究で頻繁に基盤モデルとして使われています。

OPT-175B（2022年5月）
Meta（Facebook）が研究コミュニティ向けに公開した1750億パラメータのモデルです。モデルカードと重みが公開されましたが、ライセンスは非商用利用に限定されました。当時のGPT-3に匹敵する規模のモデルをオープン提供したことで注目されました。

BLOOM（2022年7月）
BigScienceプロジェクトにより公開された1760億パラメータの多言語モデルです。世界中の研究者が参加して1年以上かけて学習され、完全オープンライセンス（RAIL License）で重みが提供されました。サイズは巨大ですが分散推論によりローカルクラスタで動かすことも可能です。

2023年

LLaMA（2023年2月）
Metaが発表したLLaMAは、70億・130億・330億・650億パラメータのモデルファミリーです。トークン数2兆語以上で訓練され高い性能を示しましたが、研究目的の非商用ライセンスでした。ところが3月にLLaMAの重みがリークされ、一般にも入手可能となったため、一気にローカルLLMブームに火が付きます。特に最小の7Bモデルは比較的軽量で、消費者向けGPUやCPU上でも量子化により動作可能でした。LLaMAは以降の多くの派生モデル・微調整モデルのベースとなり、オープンLLMの礎石となりました。

Stanford Alpaca（2023年3月）
スタンフォード大学が公開したLLaMA 7Bモデルの指示追従微調整版です。テキスト指示に応答できるよう、OpenAIの大規模モデルから生成した5万件のQAペアでLLaMAを調教しました。学習データやコードが公開され話題になりましたが、生成データにOpenAIの出力を用いたためか、公開直後に一時配布停止となりました。それでもAlpaca方式は各所に影響を与え、多くのLLaMA派生モデルが指示追従データで微調整されるきっかけとなりました。

Vicuna（2023年3月）
UCSFやCMUなどの研究者による、Vicuna-13BはLLaMA 13Bをベースにユーザ対話データで微調整したチャットモデルです。ShareGPTというChatGPTの対話ログデータを70k件使用し、ChatGPTの回答品質の90%に匹敵すると主張されました。Vicunaは学術目的で公開され、モデル重みはLLaMAベースから差分形式で提供されました（ライセンス上LLaMAの扱いに準拠）。Vicunaの成功に触発され、以降OpenAssistant、Koala、GPT4Allなど様々なオープンチャットモデルが登場しました。GPT4Allは出た時にすぐ触った記憶があります。

Dolly 2.0（2023年4月）
Databricks社が公開したDolly 2.0は商用利用可能なオープンチャットモデルです。Pythia-12B（120億パラメータ）をベースに、社内収集した高品質な指示応答データで微調整されました。データセット（15K件）もCCライセンスで公開され、商用利用可能なデータで調整された初のチャットLLMとして注目されました。Dollyの登場により、企業も安心して使えるオープンLLMの可能性が示されました。

Llama 2（2023年7月）
MetaがLLaMAの改良版として公開したモデルファミリーです（7B・13B・70B）。Llama2は商用利用可能な独自ライセンスで提供され、Chatモデルは人間フィードバックで微調整されています。70B版はChatGPTと同等の性能とも評され、オープンモデルの新たなスタンダードになりました。Llama2 7B/13Bは引き続きローカル環境でも扱いやすく、多くのGUIツールでサポートされています。

Mistral 7B（2023年9月）
フランスの新興企業Mistral AIが公開した73億パラメータのモデルです。Apache 2.0ライセンスで公開され、7B規模で当時最強とうたわれました。特徴はLlama2 13Bを上回る性能、高速実行のためのGrouped-Query Attention (GQA)採用、長文入力のためのスライディングウィンドウ注意機構などの先進技術です。公開と同時にチャット向けの微調整モデルも提供され、その実力でコミュニティを驚かせました。

2024年

Phi-2（2024年初頭）
Microsoftが公開したPhi-2は27億パラメータのTransformerベースモデルです。前身Phi-1.5の2倍のサイズで、96基のA100 GPUで2週間学習されました。Webテキストと合成「教科書品質」データで訓練されており、13B未満のモデル中ほぼ最先端の推論・常識的応答性能を示します。MITライセンスで公開され、小規模モデルの研究プラットフォームとして有用です。MicrosoftはPhiシリーズを「Small Language Models (SLMs)」と位置付け、小さくても高性能なモデルの可能性を示しています。

Gemma（2024年2月）
Google DeepMindが発表したGemmaは、次世代大規模モデル「Gemini」の技術を用いて構築されたオープンモデルファミリーです。70億パラメータと20億パラメータのモデルがあり、それぞれベース版と指示調整版を提供します。いずれも8Kトークンの文脈長を持ち、量子化なしでも消費者向けGPU/TPUで動作するよう最適化されています。Gemma-7Bは性能的にMistral 7Bなど最先端の7Bモデルに匹敵し、Gemma-2Bも2B級では高水準です。ライセンスは独自のGemma Licenseですが商用利用可能で、GoogleはHugging Faceやクラウド連携も含め全面的にサポートしています。

OpenELM（2024年4月）
Appleが発表したOpenELMは、「Open Efficient Language Model」の名が示す通り効率性とオープン性を重視したモデルファミリーです。2.7億・4.5億・11億・30億パラメータのモデル（各サイズに指示調整版あり）を公開し、Transformer各層内でパラメータ配分を工夫するレイヤー毎スケーリング戦略で精度向上を実現しています。例えば約10億パラメータ規模で、同等規模の他モデル（OLMoなど）を上回る精度を達成しながら、必要な学習トークン数を半分以下に抑えたと報告されています。学習には公開データセット（RefinedWebやRedPajama等計1.8兆トークン）を用い、学習ログやチェックポイントも含め極めてオープンな形式で提供されています。Appleは独自のApple Sample Code Licenseで公開していますが、研究利用やApple端末上での最適実行を促進する狙いがあります。

2025年

DeepSeek R1 (2025年初頭）
RL（強化学習）で推論力を底上げした「R1-Zero → R1」の系譜と、1.5B〜70Bの蒸留群（Llama/Qwen系ベース）をオープンウェイトで公開。性能はOpenAI o1系に匹敵と主張し、MITライセンスで利用可能。研究用だけでなくローカル実運用の選択肢として一気に存在感が高まりました。出た当初良い意味でも悪い意味でもかなり話題になりました。

Gemma 3（2025年3月）
Google DeepMindの軽量モデル群。単一GPU/TPUやオンデバイスで動かしやすい設計を前面に出し、多言語・マルチモーダルの実用性を強化。さらにGemma 3 270Mのような超小型版も登場し、極小でも現場で回るを実演しました。

Qwen3（2025年4月）
Alibabaの次世代オープンシリーズ。6つのDense＋2つのMoEなど多サイズ展開で、ハイブリッド推論やエッジ〜ロボティクスまでの広範な用途を想定。派生のQwen3-Coderはエージェント的なコーディング作業に最適化されています。

gpt-oss-20b / 120b（2025年8月）
OpenAIがApache-2.0で公開した推論特化のオープンウェイト。どちらもMixture-of-Experts（MoE）で、総117B/21Bに対しアクティブは5.1B/3.6Bと効率志向。128kコンテキスト、帯状＋密の交互注意やGrouped Multi-Query Attentionでスループットとメモリ効率を両立。120bは単一80GB GPU、20bは16GBメモリ級で動作する設計で、Ollama／vLLM／llama.cppほか主要ランタイムがDay-0/Day-1対応。評価では120bがo4-mini近傍、20bがo3-mini帯の実力となります。動かし方等は過去の記事に記載してあります。

ローカルLLMが意味することと今後

gpt-oss-20b/120b を“オープンウェイト”で出した意味は、単に強いモデルが増えた以上に大きいと考えています。

理由として研究用途だけでなくローカル／オンプレ前提の商用配備まで公式に視野に入れたこと自体が転換点であるという事です。これにより、企業や個人が機密データを外へ出さずにo3-mini帯の実力を使うことが可能となりました。大学在学中の経験としてLLMを使いたいけどセキュリティや個人情報保護の観点で利用できない分野が多々ありました。これらの課題は概ね解決することになります。

技術面では、どちらも Mixture-of-Experts（MoE）を採用し、総パラメータは約21B/117B でありながら、実際に計算に参加する“アクティブ”はそれぞれ 3.6B/5.1B に抑えています。加えて MXFP4（約4bit）で MoE 重みを後処理量子化しており、その結果として 20b は 16GB 級のメモリ、120b は80GB GPUで動かすことができます。

これらの事から現状のgpt-oss-20b/120bは少ないリソースで優秀なモデルを実行できるめ今後さらなる進歩をが起きより良いモデルが出ることでLLMがPCやサーバーにとどまらず、IoT機器、車載システム、産業制御システムなど、あらゆる機器・サービスに今後組み込まれていく可能性が高いと考えられます。

しかし良いことに使われるだけではありません。8/27日に報告された「PromptLock」は、オープンソースのLLM（gpt-oss:20b）をローカル環境で実行し、悪意あるLuaスクリプトを生成・実行する、世界初のAI駆動型ランサムウェアです。これが示しているのは、AIが「道具」から「攻撃者の共犯者」に変わり得るという現実です。

このように、gpt-oss-20b/120bはAI技術の民主化において光と影を同時に浮き彫りにしています。一方で、企業や研究機関がプライバシーを保護しながら高性能なAIを活用できる道を開き、イノベーションの加速と技術格差の縮小に貢献する可能性があります。

最後に

ローカルLLMの歩みを振り返り学ぶことで見えてきたのは、単なる技術の進化ではなく「AIを誰が、どの環境で、どう使えるか」という可能性の広がりであると感じました。Transformer以降、大小さまざまなモデルが登場し、今では数GBメモリのGPUでも実用的に動く時代になると考えられます。

特に gpt-oss-20b/120b の公開は、研究用途を超えて「ローカルで商用レベルの推論を実現できる」ことを明確にした大きな転換点です。セキュリティやプライバシーの制約が強い分野でも、クラウド依存から解放されたAI活用の可能性が広がりました。その一方で、悪用リスクも現実のものとなり、責任ある利用とガバナンスの重要性がますます増しています。

これからの数年で、ローカルLLMはPCやサーバーだけでなく、IoT機器、車載システム、産業制御システムにまで組み込まれていくと考えられます。

この記事が、ローカルLLMの歴史とその意義を整理する一助となり、皆さんが次の一歩を考えるきっかけになれば幸いです。また、今回の話題は人によって意見が異なったり感じ方が変わるため様々な意見など書き込んでいただけると嬉しいです。

余談

ローカルLLMを利用してみたい方は以下の記事で利用方法を説明しています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up