はじめに
この記事は、「直近で見かけた以下のモデルを、LM Studio を使って少し動作確認してみた」という感じの、ローカルLLM に関する内容です。
- NVIDIA Nemotron-Nano-9B-v2-Japanese
- Qwen3 Swallow
- GPT-OSS Swallow
各モデルに関連するポスト・ページ
以下に、各モデルに関する関連ページを掲載します。
NVIDIA Nemotron-Nano-9B-v2-Japanese
●NVIDIA Nemotron 2 Nano 9B Japanese: 日本のソブリンAIを支える最先端小規模言語モデル
https://huggingface.co/blog/nvidia/nemotron-nano-9b-v2-japanese-ja
Qwen3 Swallow・GPT-OSS Swallow
●Qwen3 Swallow — Swallow LLM
https://swallow-llm.github.io/qwen3-swallow.ja.html
●Qwen3-Swallow-v0.2 - a tokyotech-llm Collection
https://huggingface.co/collections/tokyotech-llm/qwen3-swallow-v02
●GPT-OSS Swallow — Swallow LLM
https://swallow-llm.github.io/gptoss-swallow.ja
●GPT-OSS-Swallow-v0.1 - a tokyotech-llm Collection
https://huggingface.co/collections/tokyotech-llm/gpt-oss-swallow-v01
LM Studio を使って動かしてみる
それでは、LM Studio を使って動かしてみます。
モデルの情報を確認する
LM Studio上でモデルを検索してダウンロードします。そのために、LM Studio で扱えるモデルの情報の確認から進めます。
利用できそうなモデルの情報を確認してみる
今回試そうとしている 3種のモデルについて、ぱぷりか炒め さんが GGUF版のモデルを作成されたようです。
実際、LM Studio上で 3種のモデルをキーワード検索すると、以下のように、上記の GGUF版モデルが出てきます(以下の中で、公開元が mmnga-o となっているもの)。
モデルの種類について
GGUF版モデルの種類が複数あり、まず元のモデルのパラメータ/重みを少ないビットで近似的に表現する量子化の度合いです(Q4 や Q5 など)。
さらに今回のモデルについて、例えば Q5 のモデルに関して見ると Q5_0、Q5_K_M、Q5_K_S の3つに分かれているようです(※ モデルのファイルサイズと品質のトレードオフがあるもの)。これらは同じ 5ビット量子化でも、量子化の手法が違っているようで、Q5_0 は最シンプルな量子化方式になり、Q5_K_M と Q5_K_S は「K-quant」が用いられたもののようです(※ Q5_K_M のほうがモデルのファイルサイズが大きくなるものの、品質は良くなるようです)。
そして GPT-OSS-Swallow については、ファイル名に RL・SFT がついているものがあります。これは、どうやら元のモデルのほうで、強化学習あり版(※ RL: Reinforcement Learning/強化学習)と強化学習なし版(※ SFT: Supervised Fine-Tuning/教師ありファインチューニング)があるようでした。
今回利用するモデル
最終的にダウンロードしたモデル
最終的にダウンロードしたモデルは、以下のとおりです。
LM Studio上でダウンロードした時の画面
それぞれのモデルを LM Studio上でダウンロードした時の、モデルの選択画面も掲載しておきます。
動作確認
最後に軽く動作確認をしてみます。
それぞれのモデルで、共通のプロンプト「生成AIについて、10歳向けの説明をして」という内容を試します。
NVIDIA-Nemotron-Nano-9B-v2-Japanese-Q5_K_M.gguf
NVIDIA-Nemotron-Nano-9B-v2-Japanese-Q5_K_M.gguf で試した結果を掲載します。
なぜか、「生成AI」のひらがな表記部分が「せいせつ エーアイ」になっていますが、あとは生成AI に関する説明を例え話で説明しようとする文章、という感じにはなっていそうです。
出力速度は 13.61 トークン/秒で、出力の合計は 581 トークン、最初の出力が出る前の「Thought for ...」の部分は 4.68秒でした。
Qwen3-Swallow-30B-A3B-SFT-v0.2-Q4_K_M.gguf
Qwen3-Swallow-30B-A3B-SFT-v0.2-Q4_K_M.gguf で試した結果を掲載します。
この時の出力はひらがな表記の併記はなかったです。あとは生成AI に関する説明を例え話で説明しようとする文章や、利用する場合のポイントを説明する文章になっていました。
出力速度は 47.08 トークン/秒で、出力の合計は 578 トークン、最初の出力が出る前の「Thought for ...」の部分は 1.09秒でした。
GPT-OSS-Swallow-20B-RL-v0.1-Q5_K_M.gguf
GPT-OSS-Swallow-20B-RL-v0.1-Q5_K_M.gguf で試した結果を掲載します。
なぜか、「生成AI」のひらがな表記部分が「じょうせい AI」になっていたり等という部分がありますが、AI と生成AI について説明がされています。他のものより長めの説明が出てきました。
出力速度は 33.85 トークン/秒で、出力の合計は 1035 トークン、最初の出力が出る前の「Thought for ...」の部分は 2.19秒でした。
とりあえず一通り、軽く試しただけという感じですが、動作自体と説明内容の大まかな部分は問題はなさそうな感じでした。
その他
情報のメモ
今回のお試しを進める中で見かけて、気になった記事があるのでメモしておきます。
●ローカルLLM のリリース年表|npaka
https://note.com/npaka/n/n1d99253ae2cf














