CPU主体・省メモリかつ性能が高いLLM関連リポジトリの一覧です。
自分用のメモです。随時更新予定
名前 | リンク | 特徴その他 | アプローチ | 日本語性能 | 配布内容 | 別途入手 | 対応パラメータ数(B) |
---|---|---|---|---|---|---|---|
gpt4all | GitHub | 利用メモリ極小。GPUなし12GノートPCでも遅いが使えなくない | LoLaをgpt3.5-turboで蒸留 | 実用性なし | gpt4all-lola-quantized.bin | なし | 7 |
Vicuna-13b | GitHub | 必要メモリ60G、性能高 | LLaMaをShareGPTで蒸留 | 一部実用レベル | 追加重み+chat | LLaMa | 13 |
llama.cpp | GitHub | LLaMaの利用メモリ削減、30Bを32Gなど | c++で4bit量子化。MLライブラリggmlは他実装でも利用されている | 未対応 | 量子化実装+chat | LLaMa | 7 13 35 60 |
flexgen | GitHub | cpu/diskオフロードでVRAM16Gでも動く。最近はメリット薄れてきたかも | pytorch | 未確認 | OPT | 6.7 30 175 | |
alpaca | GitHub | パラメータ比の性能高いモデル+訓練用データセット52k | LLaMa-7Bをgpt-3.5で蒸留 | 未確認 | モデル+訓練データ (重みは配布なし) | LLaMa | - |
Japanese-Alpaca-Lora | GitHub | 日本語性能 | alpaca訓練データをDeelで翻訳して訓練 | 一部実用レベル | Alpaca Adapter層の重み | LoRA | 7 13 30 65 |
RWKV-LM | GitHub | 商用利用可? パラメータ比の性能高い? VRAM必要 | TransformerではなくRNN | 日本語14Bは一定自然 | 全重み+chat モデルバリエーション多い | なし | 3 7 14 |
rwkv.cpp | GitHub | CPUで動くrwkv? | 4bit量子化したrwkv | 未確認 | 変換+chat | rwkv |