Intel® NPU Acceleration Library を使って LocalLLM を Intel NPU で動かす

Posted at 2024-08-02

はじめに

Core Ultra 7 155H 搭載のノパソを買いました。 Core Ultra には NPU (Neural network Processing Unit) がついていて、AIの処理がつよつよになっています。そこで、最近自分の周りで流行っている LocalLLM を NPU を使って動かしました。本記事はその記録です。

やったこと

NPU ドライバの更新
rye で intel_npu_acceleration_library を追加して実行
- numpy はバージョン 2 未満を入れる
ライブラリで動かない部分を手動で書き換えて直す
Qiita.com is という文章の続きをサンプルプログラムを使って生成してもらって NPU が動いてるのを確認

実行環境

OS: Windows11
CPU: Core Ultra 7 155H
メモリ: 32GB
Intel® NPU Acceleration Library: v1.3.0

Intel® NPU Acceleration Library

Intel® NPU Acceleration Library は Intel NPU を使うための Python ライブラリです。github
2024年8月1日現在、開発途中です。

NPU ドライバの更新

NPU ドライバを最新のにする必要があるのですが、デバイスマネージャーから自動でやっても最新のにならないので、手動でやります。2024年8月1日で、自分のパソコンにはバージョン31.0.100.1688が入っていて、最新は32.0.100.2540だったので、それをリリースノートの手順で入れてきます。

ドライバのダウンロードページから Zip ファイルをダウンロード、解答します。

デバイスマネージャーで Neural processors -> Intel(R) AI Boost を右クリックしてアンインストールします。このデバイスのドライバーを削除しようとしました。 にチェックを入れてデバイスのアンインストールをしてください。

上の方にあるこのアイコン (ハードウェア更新のスキャン)をクリックしてほかのデバイス -> PCIデバイスを右クリックしてコンピューターを参照してドライバーを検索(下の方) をクリックしてください。

回答したドライバーのフォルダを参照して、サブフォルダーを検索する にチェックを入れてください。

Intel(R) AI Boost のプロパティを見てバージョンが最新のになってれば OK です。

Python 環境構築

Python のパッケージ管理システムは rye を使います。 numpy は 2 より前のにします。

rye init
rye add intel_npu_acceleration_library
rye add numpy<2
rye sync

実行

src のなかに main.py を作り、Github にある Tiny-llama を動かすサンプルプログラムを書きます。

src/main.py

from transformers import AutoTokenizer, TextStreamer
from intel_npu_acceleration_library import NPUModelForCausalLM
import torch

model_id = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"

model = NPUModelForCausalLM.from_pretrained(model_id, use_cache=True, dtype=torch.int8).eval()
tokenizer = AutoTokenizer.from_pretrained(model_id, use_default_system_prompt=True)
tokenizer.pad_token_id = tokenizer.eos_token_id
streamer = TextStreamer(tokenizer, skip_special_tokens=True)


query = input("Ask something: ")
prefix = tokenizer(query, return_tensors="pt")["input_ids"]


generation_kwargs = dict(
    input_ids=prefix,
    streamer=streamer,
    do_sample=True,
    top_k=50,
    top_p=0.9,
    max_new_tokens=512,
)

print("Run inference")
_ = model.generate(**generation_kwargs)

実行します。

rye run python src/main.py

Ask something: で入力したら TypeError: LlamaAttention.forward() got an unexpected keyword argument 'position_embeddings' が出てきました。v1.3.0 ではこのエラーは起こるのですが、すでに修正されてました。たぶん次のバージョンで反映されると思います。

ライブラリの修正

とりあえずライブラリを手動で書き換えます。.venv\Lib\site-packages\intel_npu_acceleration_library\nn\llm.py が該当するコードです。

まずは import の追加

from transformers.models.llama.modeling_llama import (
    apply_rotary_pos_emb,
    repeat_kv,
    LlamaConfig,
)
from transformers import AutoTokenizer
from intel_npu_acceleration_library.nn import Linear
from intel_npu_acceleration_library.backend import run_factory, MLP
from functools import partial
- from typing import Optional, List, Generator
+ from typing import Optional, List, Generator, Tuple
from transformers.cache_utils import Cache
import torch
import uuid

163行目ぐらいの LlamaAttention.forward() に引数追加

def forward(
        self,
        hidden_states: torch.Tensor,
        attention_mask: Optional[torch.Tensor] = None,
        position_ids: Optional[torch.Tensor] = None,
        past_key_value: Optional[Cache] = None,
        output_attentions: Optional[bool] = False,
        use_cache: Optional[bool] = False,
        cache_position: Optional[torch.LongTensor] = None,
+       position_embeddings: Optional[Tuple[torch.Tensor, torch.Tensor]] = None,  # will become mandatory in Transformers v4.45
    ):

205行目付近の cos, sin への代入を変更

        query_states = query_states.view(
            bsz, q_len, self.num_heads, self.head_dim
        ).transpose(1, 2)
        key_states = key_states.view(
            bsz, q_len, self.num_key_value_heads, self.head_dim
        ).transpose(1, 2)
        value_states = value_states.view(
            bsz, q_len, self.num_key_value_heads, self.head_dim
        ).transpose(1, 2)

-       cos, sin = self.rotary_emb(value_states, position_ids)
+       if position_embeddings is None:
+           cos, sin = self.rotary_emb(value_states, position_ids)
+       else:
+           cos, sin = position_embeddings

        query_states, key_states = apply_rotary_pos_emb(
            query_states, key_states, cos, sin, position_ids
        )

実行(修正後)

実行します。

rye run python src/main.py

Qiita.com is の続きを生成してもらいました。

NPU も動いた！文章は生成できたけど、 Qiita.com は、ダイエット、フィットネス、健康に関する情報の素晴らしいリソースです。 とか言っててダメダメじゃんw

たぶんもっといい生成モデルを使うといい感じになると思います。

おわりに

NPU ドライバの更新をして、 rye で intel_npu_acceleration_library を追加して実行するまえにライブラリで動かない部分を手動で書き換えて直し、 Qiita.com is という文章の続きを生成してもらって NPU が動いてるのを確認しました。対話システム作ったり、Intel® NPU Acceleration Library が更新されたりしたらまた記事を書こうと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up