Docker Model Runner を使ってみた

Posted at 2025-10-26

はじめに

だいぶ前になるけど、MCPサーバを作るチュートリアルをやってみた。の続きで、MCPクライアントもやりたくなり、加えて、自宅の趣味データが多少溜まってきたのと思うので、何かしらに使いたいな。と目論見まして。

ふと、モデルを利用するために「LM Studio」を起動していないとダメなのかな？
と思い、あれ？Dockerで代替えできないのかな？と。で、Docker Model Runnerに出会いました。のでご紹介。

しかも、2025/9/18に一般提供開始？！これは使わなければ！ってことで。

・ずっと大変お世話になってる記事

基本、公式の「Get started with DMR」に沿ってやれば大丈夫ですが、少しハマった部分もあったので概略レベルとハマった点を残します。

上記の部分で、設定から「AI」の部分を有効化

ローカルPCの「langchain4j」からHTTPでアクセスしたかったので、必要と思い「Enable host-side TCP support」を有効化。

「CORS Allowed Origins」も本来はちゃんと設定しないと、と思いつつ、自宅だし、とにかく動かしたかったので、「ALL」を選択。

今は3つダウンロード済ですが。

色々と出てきます。

ので、LM Studioで「qwen/qwen3-1.7b」を使っていたので同じのが使いたかったので「qwen」で検索。
（画像はインストール済ですが。）

3つ出てきたので、「qwen3」をクリックすると、色んなバリエーションが出てくる。

「qwen/qwen3-1.7b」が欲しかったですが、ドンピシャはなかったので、latest といい感じのSize感と小さいSizeの３つをダウンロードしてみた。

ダウンロードするとこんな感じで表示される。一番右のActionの「矢印アイコン」をクリックするとチャットができる。

が、最初、画面幅が小さくて、あれ？「Action」が無い。ってハマりました。
・画面幅が小さい場合

456Mbのモデルの場合、他のモデルに比べると多少早いけど、レスポンスがちょっと意図したものと違う。

・「こんにちは」に対するレスポンス

こんにちは！お疲れ様ですね。何かお悩みですか？おやすみなさい～😊
何かお手伝いできる場合はどうぞ！

1.4GBのモデルの場合、456MBに比べると遅いけど、レスポンスはいい感じ。

・「こんにちは」に対するレスポンス

こんにちは！こんにちは。何かご質問やお手伝いできますか？どうぞよろしくお願いします！😊

4.7GBモデルの場合、1.4GBモデルより更に遅い。けど、一番レスポンスがちゃんとしている気がする！

・「こんにちは」に対するレスポンス

こんにちは！お手伝いできますか？ 😊

なので、容量が増えるとレスポンスがいい感じなるけど、自分のPCではどんどん遅くなってしまう感じがする。

ということで、真ん中？くらいの1.4GBを使ってみることに。

LM Stdioを利用していた際は、以下の通り。

モデル名：qwen/qwen3-1.7b
BaseURL：http://localhost:1234/v1

あれ？Docker Model Runnerの場合は？

というと、公式を見て、推測したら

モデル名：ai/qwen3:0.6B-F16
BaseURL：http://localhost:12434/engines/llama.cpp/v1

で良い感じに動いた。

未検証だけど、公式を見る限り、コンテナから接続する場合は、

http://model-runner.docker.internal/engines/llama.cpp/v1

で良さそう。

遂に自宅の趣味管理システムにもAIが導入できる！
という歓喜でした。

あと、今年の1月にノートPCを買い替えた際に、CPUとかGPUを意識すればよかったのかな？とちょっと後悔。
メモリは気にして32GBにしていたから、セーフだったけど。