はじめに
最近、翻訳タスクに特化した大規模言語モデル(LLM)への関心が高まっています。しかし、個人開発者にとって最大の障壁となっているのがハードウェアのコストです。高品質な翻訳モデルは通常、140億(14B)から700億(70B)以上のパラメータを要求するため、一般的なパーソナルコンピューターのVRAM容量を大幅に超えてしまいます。
この課題を解決するため、Tencent(テンセント)の研究チームは「HY-MT 1.5」を公開しました。注目すべき特徴は、非常にコンパクトな1.8Bと7Bの2つの最適化バージョンが提供されている点です。このパラメータ数により、モデルを一般的なローカルPCやエッジデバイス(Edge devices)上で直接実行することが可能になります。
技術的な特徴
開発元のレポートによると、HY-MT 1.5はWMT25の優勝モデル(Hunyuan-MT-7B)をベースに再構築および最適化されたものです。テストを通じて、いくつかの注目すべき技術的な特徴が確認されました。
- 33言語への対応: ベトナム語、英語、日本語、フランス語などに加え、広東語など5つの主要な方言の翻訳もサポートしています。
- プロンプトによる厳密な制御: あらかじめ設定された用語集(Glossary)に基づいて翻訳を行わせたり、コード内のHTML/XMLタグを自動で保持したまま翻訳させることが可能です。
- 軽量かつ高性能: 7B版からの蒸留(distillation)技術を用いることで、1.8Bモデルはパラメータ数を大幅に削減しながらも高品質な翻訳精度を維持しています。
現在、コミュニティによってGGUFの量子化フォーマットがコンパイルされており(公式のFP8やGPTQ-Int4版と並行して)、開発者がすぐに簡単にデプロイできるようになっています。
ローカルPC環境での実際のベンチマーク
以下は、GGUF Q4_K_M フォーマットのモデルを実際のローカルPCで実行した際の実測データです(コンテキストウィンドウは16K〜32Kに設定)。
1. HY-MT1.5-1.8B (GGUF Q4_K_M)
- RAM/VRAM消費量: 1.3 GB 〜 1.6 GB 程度。最近のほとんどのPC環境で動作可能です。
-
推論速度 (Inference Speed):
- NVIDIA RTX 5060 Ti 環境: 170〜200 tokens/秒
- Apple M3 環境 (MLXフレームワークを使用): 70〜100 tokens/秒
2. HY-MT1.5-7B (GGUF Q4_K_M)
- RAM/VRAM消費量: 6.1 GB 〜 6.5 GB 程度。この構成を実行するには、8GB以上のVRAMまたはユニファイドメモリを備えたシステムが必要です。
複雑なJSON/XMLファイルを処理する際の注意点:
1.8Bと7Bの間では、翻訳時に構造フォーマットを維持する能力に大きな差があります。
- 1.8Bバージョンは、純粋で短いテキストの翻訳に適しています。配列や複雑なJSON/XMLをバッチ処理で翻訳しようとした場合、情報の欠落(Miss)、ハルシネーションの発生、または原文がそのまま返される現象が頻繁に見られます。
- 7Bバージョンは構造フォーマットの安定性と精度が非常に高いです。タグの論理エラーを起こさずに、ネストされた大量のデータ構造を翻訳する必要がある場合には、このバージョンが適しています。
デプロイとセットアップ
方法1: LM Studio を使ってローカルAPIを立てる(推奨)
これは、ローカルサーバーを構築するための最も素早い方法です。
- LM Studioのソフト内で直接
HY-MT1.5-1.8Bを検索し、GGUF版を選択してダウンロードします。 - モデルをメモリにロードした後、複雑なSystem Messageの設定を行うことなく、翻訳のプロンプトを入力するだけで機能します。
- Developer / Local Server タブに切り替えてサーバーを起動します。このソフトウェアは、LM Studio API、標準のOpenAI API、およびAnthropic APIの3つのプロトコルに初めから対応しています。
- 外部アプリケーションのURLエンドポイントを
localhostに設定するだけで、完全に独立したセキュアな翻訳サーバーが完成します。
方法2: Python Transformersライブラリを使った実装
Pythonコードから直接モデルを読み込むプロセスです:
pip install transformers==4.56.0
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name_or_path = "tencent/HY-MT1.5-1.8B"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(
model_name_or_path,
device_map="auto",
torch_dtype=torch.bfloat16
)
messages = [
{
"role": "user",
"content": "次の文章を日本語(ja)に翻訳してください。翻訳結果のみを返し、余分な説明は加えないでください。\n\nIt’s on the house."
}
]
tokenized_chat = tokenizer.apply_chat_template(
messages, tokenize=True, add_generation_prompt=False, return_tensors="pt"
)
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048, top_k=20, top_p=0.6, temperature=0.7)
output_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(output_text)
# 想定される出力: お店のおごりです。
効果的なプロンプトの記述方法
技術ドキュメントによれば、Tencentの開発チームは特定のプロンプト構造に基づいてモデルを最適化しています。この構造を維持することで、システムは正確なデータを出力し、不要な説明テキストを回避できます。
1. 基本的な翻訳
次の文章を日本語(ja)に翻訳してください。翻訳結果のみを返し、余分な説明は加えないでください。:
This is a default basic translation workflow.
2. 用語集(Glossary)を使用した翻訳
固有の名称や専門用語の指定が必要なドキュメントの翻訳に非常に有用です。
以下の翻訳例を参考にしてください:
Agentは「AIアシスタント」と翻訳してください。
次の文章を日本語(ja)に翻訳してください。翻訳結果のみを返し、余分な説明は加えないでください。:
The new integrated AI Agent has been deployed successfully.
3. 技術的なタグフォーマットの維持
プログラミングの過程でHTML/XMLのコードタグを損なわずに翻訳する場合に役立ちます。
以下の <source></source> タグで囲まれたテキストを日本語(ja)に翻訳してください。翻訳結果のみを返し、余分な説明は加えないでください。テキスト内の <sn></sn> はフォーマットタグです。翻訳後もこのタグの位置はそのまま維持してください。出力フォーマットは:<target>結果</target> としてください。
<source><sn>赤いボタン</sn>をクリックして確定します。</source>
4. 翻訳のトーン(Tone of Voice)の設定
カジュアル、プロフェッショナル、またはフォーマルなど、ユーザーが文章のスタイルを変更するのに役立ちます。
次の文章を日本語(ja)に翻訳してください。ビジネスパートナーへのメール送信に適した、プロフェッショナルでフォーマルなトーンを使用してください。翻訳結果のみを返し、余分な説明は加えないでください:
Hey! Make sure to fix these bugs by tomorrow or the client will be super angry.
実用的な応用例
軽量なモデル設計は、現実のシナリオにおける新しい技術的ソリューションの可能性を広げます。
- IoTおよびモバイル機器(Mobile App): コンパイル版の1.8Bモデルは非常にコンパクトなため、MLXやLlamacppを介してモバイル端末上で完全にオフラインで動作させることができます。これは、ネットワークのない場所でも動作する旅行用アシスタントアプリなどを構築するための基盤となります。
- 秘匿性の高い社内文書の処理: データセキュリティを重視する企業にとって、7Bモデルをダウンロードし、内部サーバーのシステムとして運用することで、パブリックなクラウドサービスを介した翻訳処理による情報漏洩のリスクを排除できます。
- 翻訳ニュアンスの最適化: 独自のカスタマイズ環境を構築し、用語ベース(Glossary)とトーン調整のプロンプトを組み合わせることで、サードパーティのAPI翻訳サービスよりも自然で文脈に沿った質の高い翻訳を行うことができます。
まとめ
結論として、HY-MT 1.5 7B は、バックエンドシステムで複雑な構造データ(JSON/XML)を処理したり、バッチによる自動翻訳フローを必要とする場合に非常に信頼できるモデルです。
一方で、1.8B バージョンはハードウェアリソースが限られているデバイスや、過度なシステムリソースを消費することなく高速な処理速度が求められるモバイルアプリケーションに統合するための最適なツールと言えます。
参考リンク
- Hugging Face Repo (1.8B): tencent/HY-MT1.5-1.8B
- Hugging Face Repo (7B): tencent/HY-MT1.5-7B
- Technical Report: 2512.24092 - HY-MT1.5