はじめに
Hugging Faceとは?
Hugging Faceは、AIや自然言語処理(NLP)のモデルを提供するプラットフォームです。多くの研究者や開発者が、自然言語処理、コンピュータビジョン、音声認識などのタスクに対して事前学習済みモデルを利用しています。特に、transformers ライブラリと共に使われることが多く、様々なタスクに対応可能なモデルを提供しており、簡単に導入・使用できるのが特徴です。
Swallow-MX-8x7b-NVEとは?
Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
は、日本語の自然言語生成(NLG)を行う高性能なAIモデルです。このモデルは約46億のパラメータを持ち、自然で流暢な日本語テキスト生成が可能です。複雑な指示に対しても高いパフォーマンスを発揮し、特に長文生成や高度なテキスト応答に優れています。
現状の課題
多くの企業では、セキュリティやコンプライアンスの理由から、外部ネットワークにアクセスできないオフライン環境でのデータ分析が求められます。しかし、このような環境では通常、インターネット経由でモデルをダウンロードすることができません。そのため、オフライン環境でもモデルを利用できるようにする必要があります。
オフライン環境での対応方法
Hugging Faceのモデルは通常、インターネット経由で取得されますが、オフライン環境では、モデルキャッシュ を活用することで事前にモデルをダウンロードし、オフラインでも利用可能にできます。
次のステップで説明する方法は、オンライン環境でモデルを事前にダウンロードし、オフライン環境でも問題なく動作させるための手順です。
手順の概要:
-
オンライン環境でモデルをダウンロード
オフライン環境へ移行する前に、まずはオンライン環境で必要なモデルとトークナイザーをローカルにダウンロードし、キャッシュします。このキャッシュされたモデルをオフライン環境に移行します。 -
Dockerを使用してモデルをパッケージ化
ダウンロードしたモデルキャッシュと必要なライブラリを含めたDockerイメージを作成し、オフライン環境でもそのイメージを使って実行できるようにします。
1. オンライン環境でモデルをダウンロード
最初に、オンライン環境でモデルをダウンロードしてキャッシュします。transformers ライブラリの from_pretrained()
メソッドを使用すると、Hugging Faceのモデルを簡単にダウンロードしてキャッシュできます。これにより、オフラインでもキャッシュされたモデルを利用することが可能になります。
from transformers import AutoModelForCausalLM, AutoTokenizer
# トークナイザーとモデルをダウンロードしてキャッシュ
tokenizer = AutoTokenizer.from_pretrained("aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2")
model = AutoModelForCausalLM.from_pretrained("aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2")
# これでモデルとトークナイザーはキャッシュされ、オフライン環境で利用できるようになります
補足:
from_pretrained()
メソッドを使うと、モデルやトークナイザーがキャッシュディレクトリに保存されます。このキャッシュディレクトリはデフォルトで ~/.cache/huggingface/transformers/
に保存されます。このディレクトリをオフライン環境にコピーすれば、インターネットに接続しなくてもモデルを利用できます。
2. Dockerを使用してモデルをパッケージ化
モデルとトークナイザーがキャッシュされたら、次はそれらをオフライン環境に移行するために、Dockerコンテナにパッケージ化します。Dockerを使うことで、環境の違いに左右されず、依存関係を含めた再現性の高い環境を構築することができます。
Dockerfileの説明
以下は、モデルキャッシュと必要なライブラリを含めたDockerfileの例です。
# 基本となるイメージ
FROM python:3.9-slim
# 必要なライブラリをインストール
COPY requirements.txt /app/requirements.txt
RUN pip install -r /app/requirements.txt
# モデルとスクリプトをコンテナにコピー
COPY model_cache /app/model_cache
COPY app.py /app
# 作業ディレクトリを設定
WORKDIR /app
# スクリプトを実行
CMD ["python", "app.py"]
Dockerfileの構成
-
FROM python:3.9-slim
は、軽量なPythonの公式イメージをベースにしています。これにより、コンテナのサイズを最小限に抑えます。 -
requirements.txt
を使って、必要なPythonライブラリを一括インストールしています。これにより、Python環境を再現性高くセットアップできます。 -
model_cache
ディレクトリには、事前にダウンロードしたHugging Faceのモデルが含まれます。このディレクトリをDockerコンテナにコピーして、オフラインでもモデルが利用できるようにします。
requirements.txtの内容
torch
transformers
tiktoken
protobuf
blobfile
sentencepiece
requirements.txt
には、モデルの動作に必要なライブラリを指定します。これらはすべてインストールされ、オフライン環境での実行が可能になります。
3. モデル実行用のPythonスクリプト
以下は、ダウンロードしたモデルを使って実際にテキスト生成を行うPythonスクリプトの例です。
from transformers import AutoModelForCausalLM, AutoTokenizer
# トークナイザーとモデルの読み込み(キャッシュから取得)
tokenizer = AutoTokenizer.from_pretrained("aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2")
model = AutoModelForCausalLM.from_pretrained("aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2")
# 入力テキスト
input_text = "Qiita用の記事を書いています。何かネタを教えて?"
# テキストをトークナイズしてモデルに入力
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
# 生成されたテキストの出力
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
スクリプトの説明:
-
from_pretrained()
でキャッシュ済みのモデルとトークナイザーを読み込みます。このとき、インターネット接続は不要です。 -
generate()
メソッドを使って、モデルが自然言語を生成します。生成されたテキストは、tokenizer.decode()
でデコードして読みやすい形に戻します。 - このスクリプトでは、入力テキストとして「Qiita用の記事を書いています。何かネタを教えて?」という例文を与え、モデルに記事のネタを提案させています。
重要なポイント
-
モデルキャッシュの利用: オフライン環境でHugging Faceモデルを使用する際は、事前にモデルをキャッシュしておくことが重要です。これにより、インターネット接続なしでもモデルを利用できます。
-
必要な依存ライブラリの事前インストール: PyTorchやトークナイザー関連のライブラリも、オフライン環境で動作させるために事前に準備する必要があります。これを
requirements.txt
にまとめておくと便利です。 -
Dockerイメージの活用: Dockerを使うことで、再現性の高い実行環境を構築できます。特に、オフライン環境での使用において、すべての依存関係を含んだDockerイメージを作成することで、安心して実行環境を移行できます。
まとめ
オフライン環境でのデータ分析やモデル利用は、企業のセキュリティや規制上、ますます重要になっています。Hugging Faceのモデルキャッシュ機能とDockerを組み合わせることで、外部接続がなくても高性能なAIモデルを利用することが可能です。この方法を活用すれば、インターネットアクセスが制限された環境でもAIモデルを活用した効率的な業務を実現できます。