HappyHorse 1.0 API 解説 ── Video Arena 1位モデルの4エンドポイントとプロンプト設計

Posted at 2026-04-27

2026年4月27日、AlibabaがHappyHorse 1.0のパブリックAPIアクセスを開始した。Video Arenaのブラインドテストで1位を獲得したモデルで、4つのエンドポイントが即日利用可能になっている。

この記事ではAPIの構成、料金体系、プロンプト設計のポイントを整理する。

結論

HappyHorse 1.0は「デモは凄いがAPIは未公開」というAI動画モデルの典型パターンを破り、ブラインドテスト1位の品質と本番利用可能なAPIを同時に提供している。映像言語（カメラワーク指示、マルチショット構成）への応答精度が高く、再現性のある動画生成が可能。

テキストプロンプトのみで動画を生成する基本エンドポイント。カメラワーク指示、マルチショット構成、スタイル指定に対応。

静止画＋テキストプロンプトで画像をアニメーション化する。参照画像との視覚的一貫性を維持しながら自然な動きとカメラワークを付与。

最大9枚の参照画像に対応。キャラクターの同一性維持やシーンの一貫性が求められるプロジェクト向け。

自然言語による動画編集。最大5枚の参照画像と組み合わせて、局所的な変更とグローバルなスタイル変更の両方に対応。元動画のモーションダイナミクスを保持する。

解像度	秒単価
720P	0.9元
1080P	1.6元

全エンドポイント共通。リクエスト単位の課金や最低利用量の制約はない。

5秒の720Pクリップで約4.5元（約90円）。コスト予測が立てやすい構造になっている。

カメラワーク指示を明示する

HappyHorseは映像言語への応答精度が高い。「slowly pushes in to medium shot」のような具体的なカメラ指示は、「zoom in」のような曖昧な指示より制御性の高い結果を生む。

マルチショット構成

「Shot 1: ... Shot 2: ... Shot 3: ...」のようにショットを番号付きで記述すると、1回のAPI呼び出しで複数ショットの一貫したトランジションが生成される。

スタイル宣言を先頭に置く

「Anime style」「Hyperrealistic, cinematic」をプロンプト冒頭に置くことで、シーン処理前にスタイルがロックされる。非フォトリアリスティックなコンテンツでは特に重要。

ポートレートのマイクロモーション

クローズアップでは微細な動き（まばたき、わずかな微笑み、葉が頬をかすめる）を指定する。過剰なアニメーションなしに自然な動きが得られる。

HappyHorse 1.0の特徴は、品質だけでなく制御性にある。同じプロンプト構造から再現性のある結果が得られることは、プロダクション環境での利用において品質以上に重要な要素だ。

クリエイティブツール、マーケティング自動化、コンテンツパイプラインを構築しているチームにとって、評価対象に加える価値がある。

HappyHorse 1.0はEvoLink経由でAPIアクセスが可能。