高速なinferenceなcerebrasを試した

Posted at 2024-08-28

結論 - 体感では速度重視しすぎて、文章の品質が酷い

https://inference.cerebras.ai/
APIで試せるようにならないと、実際の評価は下せないが。

Chatした限りだとtoken絞りすぎて、Lhama3.1-70Bとは思えないほど酷い答えが返ってくる。
極端な話、こちらの言った内容のオウム返しが多くて実用性がない。無料で高速で使えるにも関わらず、継続して使いたいとは少しも思わない。(groqのAPI経由でいい)

ローカルのPhi-3-3Bの方が頭いいのではと思ったほどだ。

　技術的に、高速に返信するには、token数絞る必要あるでしょうが。いずれにせよ、ユーザーの体感を考えると、速度は重要だと、内容が酷いと意味がない。

速度と品質のバランスは大事だなと改めて思いました。