過去にこんな記事を投稿してました
その後のバージョンで並列処理がデフォルトになりました
Ollama 0.2がリリースされました!このバージョンでは、並列処理がデフォルトで有効になりました。これにより、2つの主要な機能が解放されます。
ダウンロードリンク
新機能
1. パラレルリクエスト
Ollamaは、わずかな追加メモリを使用して、同時に複数のリクエストを処理できるようになりました。これにより、次のようなユースケースが可能になります。
- 複数のチャットセッションを同時に処理
- チーム向けのコード補完LLMのホスティング
- ドキュメントの異なる部分を同時に処理
- 複数のエージェントを同時に実行
2. 複数モデルの実行
Ollamaは、同時に異なるモデルをロードすることができます。これにより、次のようなユースケースが改善されます。
- 検索強化生成(RAG):埋め込みモデルとテキスト生成モデルの両方を同時にメモリにロード可能
- エージェント:複数のバージョンのエージェントを同時に実行可能
- 大規模モデルと小規模モデルの併用
モデルはリクエストやGPUメモリの使用状況に基づいて自動的にロードおよびアンロードされます。
Ollama 0.2の新機能により、より柔軟で強力なアプリケーションが構築可能になります。是非試してみてください!