9
6

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

最近リリースされた Swallow系(2種)・NVIDIA Nemotron系のモデルを LM Studio で試す(ローカルLLM)

9
Last updated at Posted at 2026-02-21

はじめに

この記事は、「直近で見かけた以下のモデルを、LM Studio を使って少し動作確認してみた」という感じの、ローカルLLM に関する内容です。

  • NVIDIA Nemotron-Nano-9B-v2-Japanese
  • Qwen3 Swallow
  • GPT-OSS Swallow

各モデルに関連するポスト・ページ

以下に、各モデルに関する関連ページを掲載します。

NVIDIA Nemotron-Nano-9B-v2-Japanese

●NVIDIA Nemotron 2 Nano 9B Japanese: 日本のソブリンAIを支える最先端小規模言語モデル
 https://huggingface.co/blog/nvidia/nemotron-nano-9b-v2-japanese-ja

Qwen3 Swallow・GPT-OSS Swallow

●Qwen3 Swallow — Swallow LLM
 https://swallow-llm.github.io/qwen3-swallow.ja.html

●Qwen3-Swallow-v0.2 - a tokyotech-llm Collection
 https://huggingface.co/collections/tokyotech-llm/qwen3-swallow-v02

●GPT-OSS Swallow — Swallow LLM
 https://swallow-llm.github.io/gptoss-swallow.ja

●GPT-OSS-Swallow-v0.1 - a tokyotech-llm Collection
 https://huggingface.co/collections/tokyotech-llm/gpt-oss-swallow-v01

LM Studio を使って動かしてみる

それでは、LM Studio を使って動かしてみます。

モデルの情報を確認する

LM Studio上でモデルを検索してダウンロードします。そのために、LM Studio で扱えるモデルの情報の確認から進めます。

利用できそうなモデルの情報を確認してみる

今回試そうとしている 3種のモデルについて、ぱぷりか炒め さんが GGUF版のモデルを作成されたようです。

実際、LM Studio上で 3種のモデルをキーワード検索すると、以下のように、上記の GGUF版モデルが出てきます(以下の中で、公開元が mmnga-o となっているもの)。

2026-02-21_11-01-25.jpg

2026-02-21_11-01-01.jpg

2026-02-21_11-00-44.jpg

モデルの種類について

GGUF版モデルの種類が複数あり、まず元のモデルのパラメータ/重みを少ないビットで近似的に表現する量子化の度合いです(Q4 や Q5 など)。

さらに今回のモデルについて、例えば Q5 のモデルに関して見ると Q5_0、Q5_K_M、Q5_K_S の3つに分かれているようです(※ モデルのファイルサイズと品質のトレードオフがあるもの)。これらは同じ 5ビット量子化でも、量子化の手法が違っているようで、Q5_0 は最シンプルな量子化方式になり、Q5_K_M と Q5_K_S は「K-quant」が用いられたもののようです(※ Q5_K_M のほうがモデルのファイルサイズが大きくなるものの、品質は良くなるようです)。

そして GPT-OSS-Swallow については、ファイル名に RL・SFT がついているものがあります。これは、どうやら元のモデルのほうで、強化学習あり版(※ RL: Reinforcement Learning/強化学習)と強化学習なし版(※ SFT: Supervised Fine-Tuning/教師ありファインチューニング)があるようでした。

2026-02-21_11-37-04.jpg

今回利用するモデル

最終的にダウンロードしたモデル

最終的にダウンロードしたモデルは、以下のとおりです。

2026-02-21_11-41-12.jpg

LM Studio上でダウンロードした時の画面

それぞれのモデルを LM Studio上でダウンロードした時の、モデルの選択画面も掲載しておきます。

2026-02-21_11-16-15.jpg

2026-02-21_11-19-51.jpg

2026-02-21_11-23-03.jpg

動作確認

最後に軽く動作確認をしてみます。

それぞれのモデルで、共通のプロンプト「生成AIについて、10歳向けの説明をして」という内容を試します。

NVIDIA-Nemotron-Nano-9B-v2-Japanese-Q5_K_M.gguf

NVIDIA-Nemotron-Nano-9B-v2-Japanese-Q5_K_M.gguf で試した結果を掲載します。

なぜか、「生成AI」のひらがな表記部分が「せいせつ エーアイ」になっていますが、あとは生成AI に関する説明を例え話で説明しようとする文章、という感じにはなっていそうです。

出力速度は 13.61 トークン/秒で、出力の合計は 581 トークン、最初の出力が出る前の「Thought for ...」の部分は 4.68秒でした。

2026-02-21_11-48-39.jpg

2026-02-21_11-48-53.jpg

Qwen3-Swallow-30B-A3B-SFT-v0.2-Q4_K_M.gguf

Qwen3-Swallow-30B-A3B-SFT-v0.2-Q4_K_M.gguf で試した結果を掲載します。

この時の出力はひらがな表記の併記はなかったです。あとは生成AI に関する説明を例え話で説明しようとする文章や、利用する場合のポイントを説明する文章になっていました。

出力速度は 47.08 トークン/秒で、出力の合計は 578 トークン、最初の出力が出る前の「Thought for ...」の部分は 1.09秒でした。

2026-02-21_11-50-13.jpg

2026-02-21_11-50-37.jpg

GPT-OSS-Swallow-20B-RL-v0.1-Q5_K_M.gguf

GPT-OSS-Swallow-20B-RL-v0.1-Q5_K_M.gguf で試した結果を掲載します。

なぜか、「生成AI」のひらがな表記部分が「じょうせい AI」になっていたり等という部分がありますが、AI と生成AI について説明がされています。他のものより長めの説明が出てきました。

出力速度は 33.85 トークン/秒で、出力の合計は 1035 トークン、最初の出力が出る前の「Thought for ...」の部分は 2.19秒でした。

2026-02-21_11-51-39.jpg

2026-02-21_11-52-00.jpg

2026-02-21_11-52-11.jpg

とりあえず一通り、軽く試しただけという感じですが、動作自体と説明内容の大まかな部分は問題はなさそうな感じでした。

その他

情報のメモ

今回のお試しを進める中で見かけて、気になった記事があるのでメモしておきます。

●ローカルLLM のリリース年表|npaka
 https://note.com/npaka/n/n1d99253ae2cf

9
6
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
6

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?