More than 1 year has passed since last update.

transformers用のREST API（FastAPI）

Last updated at 2024-04-30Posted at 2024-04-30

昨今のLLMの性能向上でそろそろcopilotをローカルに移行できるかも？と思ってfauxpilotを試してみました。

参考

これらを試してみたところ、fauxpilotの公式はtritonサーバーを使っているのですが、これがとても重くて使いにくいなぁとなりました。

というわけでhuggingface transformersを簡単なRESTサーバーとして起動するサンプルを作ってみました。
もちろんただのREST APIなのでfauxpilot用途以外にも使えます。

ソースはここです。

ポイントは以下の通りです。

使い方は大体README.mdに書いてある通りです。
これでcodellama2-7b辺りを上げておくと、それなりに補完がされます。
とはいえ、、ちょっとまだcopilotとは張り合えそうにないので、まだしばらくはcopilotに課金です。。。