この記事は、Supershipグループ Advent Calendar 2024の 12日目の記事になります。
要約
- ラズパイ5上でOlamaを用いてローカルLLMをいくつか実行
はじめに
去年はSnowflakeについての記事を作成しましたが、今年はRaspberryPi 5 (ラズパイ5)でローカルLLMを実行したことについての記事にしようと思います。
動機
ネットがつながる環境であればChatGPTやPerplexity AI 等、高性能なLLMを利用可能な時代となってきました。
ネットが繋がらない状態となってもLLMを使えるようにしておきたいという考えと、
業務で使うことになってもAPIでの利用で、LLMをローカルPCで構築する機会は少ないと思い、学びのためにもローカルPCで構築してみようという考えからラズパイ5でローカルLLMを動かしてみました。
ラズパイ5について
ラズパイ5は詳しくはWikipediaのページ等をご確認ください。(「今回の
LLMに聞いてみた結果はこちらです」とかできればよかったですが残念ながら今回実行のLLMでは4までしか知識になかったです)
初めて知った方は小型のPCと認識いただければと思います。
既存PCにあれこれダウンロードして失敗して不具合でるのが嫌だったため、最悪壊れても影響がないように、新規で購入しました。
今回はこちらのスターターキットをAmazonのセールで購入して用いました。(約2万円。メモリ8GB。マウス、キーボード、モニタは別)
選定理由はラズパイ3は少し触った経験があったのと、こちらの記事でラズパイ5上でローカルLLMが動きそうなことがわかっていたためです。
ラズパイ5セットアップ
慣れた人であればmicroSDにOSを書き込むところからですが、OS書き込み用のソフトが必要で「既存PCにあれこれダウンロードしたくない」に反するため、SO書き込み済みのスターターキットを購入したためOS書き込みはskipです。
箱からだして、付属のファンを両面テープとビスでくっつけ、ケースにいれてネジで止めます。
マウス、キーボード、モニタに接続し、コンセントにさしたところ...モニタが映りませんでした...
本体のライトはついており、モニタの電源もついているのですが、モニタに何も映りません...
本体ランプは緑なので、本体は正常と信じ、モニタ交換を行いました。2台のモニタを試してみたのですが映らず、3台目のモニタで映りました。
「映らないな」と思った方はモニタを変えてみるのも手です。
映ったあとは画面の表示にしたがってセットアップを完了させました。
セットアップ時日本を選択したため、各種ボタンは日本語なのですが、日本語入力ができなかったため、こちらの記事を参考にして入力可能としました。(ブラウザでの入力はうまくいかなかったため一旦保留して、ブラウザでの日本語入力時は、Mosepadで打ち込んだ日本語をコピペという形で対応しました。)
まずは動くLLMを確認
まずはこちらの記事を再現するために記事どおりTinyLlamaを動かしたところ無事動きました。
ためしにWhat is LLM?と聞くと、法学修士の学位のLLM(Latin Legum Magister)を答えていそうでした。内容は意図したものではなかったですが英語の文法的には違和感なさそうでした。
日本語ローカルLLMの種類について
実際に使いたいのは日本語でやりとり可能なLLMなので、そもそも日本語でやりとり可能なLLMにはどのようなものがあるのだろうと思い検索したところ、こちらの記事がわかりやすかったです。
非GPUで動くためには「量子化」されている必要があるということで、公式で量子化されていそうなのがtanukiとELYZAを試すことにしました。
Ollamaについて
前の項で参考としたHelloRuskさんの記事内ではOllamaを導入していたため、ラズパイでOllamaが動くかを検索したところこちらの記事を見つけたため、記事どおりにDockerを利用してOllamaを導入しました。
記事通りMeta社のLlama3を動くことは確認ができました。
日本語ローカルLLMの実行
tanuki
前の項で参考としたkaraage0703さんの記事内でtanukiの実行までしていたため、記事どおりに、7shiさんの量子化したものを試したところ動かすことができました。
「日本で一番高い山はなんですか?」
と聞くと13秒くらいしてから回答を始めてくれました。
ラズパイと記事を書いているPCの連携ができていないため全文を書くことはしないですが、
日本で最も高い山についてお答えします。まず、日本には多くの山々がありますが、その中でも特に高い山として知られるのは富士山です。...
と日本語としても違和感なく丁寧に答えてくれました。
ちなみに、公式のGGUF量子化は公式でも非推奨と明記されているため動かないだろうとは思いつつ試してみると、Ollamaにより導入まではエラーなく進んだのですが、「質問しても何も返ってこない」という形で動かなかったです。
ELYZA
ELYZAに関してもkaraage0703さんの記事を参考に下記を実行することで導入できました。
docker exec -it ollama ollama run hf.co/elyza/Llama-3-ELYZA-JP-8B-GGUF:latest
「日本で一番高い山はなんですか?」
と聞くと5秒くらいしてから回答を始めてくれました。
と聞かれたら、多くの人が「富士山」と答えるでしょう。実際に、日本の最高峰は富士山(3,776メートル)です。
ところが、...(中略)...
山脈としての最高峰はどこかというと、実は「北海道本邦離島(りとう)」にあります。
...
tanukiと比べて早いのですが、下記はじめが「と聞かれたら、」から始まっているので、Q&Aの形式としては違和感があると思いました。また、最初に「富士山」と回答できたのは良いですが、その後の補足説明で、「北海道本邦離島(りとう)」と説明しており、この山脈?はググってもでて来なかったのでハルシネーションが生じていると思われます。
WebUI化
karaage0703さんの別記事を参考にWebUI化もすることができました。
「テスト用だしログインアドレスどうしよう」と思ったので少し調べたところ、こちらの記事を見つけましたので、でたらめなアドレスを使うのは避けてtest@example.com
を利用しました。
回答を始めるまで時間がかかり、回答が始まってからはコマンドライン上での回答と同じくらいの速度で回答していました。
Bitnet(できなかったです...)
「日本語ローカルLLMの種類について」で紹介した記事の量子化の説明で触れられていたBitnetが使える形で登場という記事を見かけたので試してみました。
公式github repositoryの通りにRequirementsを準備しました。
clangが手こずりまして、
sudo apt-get install clang
しても、要求されているのは、18なのですが14しか入りませんでした。
For Debian/Ubuntu users, you can download with Automatic installation script
のリンク先を参考になんとか、18をいれて、その後の手順どおりに行ったのですが、
python setup_env.py --hf-repo HF1BitLLM/Llama3-8B-1.58-100B-tokens -q i2_s
のところでエラーになりました。上記の2626さんの記事どおりdockerでやっても同じ箇所でエラーでした。
こちらの記事の1と同様のものでした。記事どおりutils/codegen_ti1.py
に追記しましたが、解消はされなかったです。
というところで、本記事の締め切りが迫ってきましたので、
「記事執筆時はラズパイ5ではBitnet(Llama3-8B-1.58-100B-tokens)は、量子化のところで躓いてうまくいかなさそうということがわかった」とさせていただこうと思います。
今後
Bitnetができなかった点ですが、他モデルではGGUFの量子化板はhuggingfaceに公開されているため本モデルでも公開されるのを待ってOllamaから導入の方向で行こうと思います。
それまではtanukiと会話していこうと思います。
感想
本記事の内容着手前に東大松尾研のYoutubeチャンネルを見ていたのですが、ちょうどゲストとして呼ばれていたkaraage0703さんの記事がhitして色々つながっているなと思いました。
今回動かしたtanukiの開発報告会の動画も公開されており、どういう思想でどういう手順でtanukiを作成したかも公開されていますので東大松尾研のYoutubeチャンネルおすすめです。
おわりに
本記事では、「ラズパイ5でローカルLLMを実行という他の方も記事にしている内容について、あまり慣れていない人が実施しても再現できた。」「話題のBitnetも試みたが現時点ではラズパイ5での実行は厳しそう。」という記事になります。
興味を持った方はぜひクリスマスプレゼントとしてラズパイ5を購入しローカルLLMを実行してみてはいかがでしょうか?
最後に宣伝です。
Supershipではプロダクト開発やサービス開発に関わる人を絶賛募集しております。
ご興味がある方は以下リンクよりご確認ください。
Supership 採用サイト
是非ともよろしくお願いします。
参考サイト