2026年4月27日、AlibabaがHappyHorse 1.0のパブリックAPIアクセスを開始した。Video Arenaのブラインドテストで1位を獲得したモデルで、4つのエンドポイントが即日利用可能になっている。
この記事ではAPIの構成、料金体系、プロンプト設計のポイントを整理する。
結論
HappyHorse 1.0は「デモは凄いがAPIは未公開」というAI動画モデルの典型パターンを破り、ブラインドテスト1位の品質と本番利用可能なAPIを同時に提供している。映像言語(カメラワーク指示、マルチショット構成)への応答精度が高く、再現性のある動画生成が可能。
APIエンドポイント
happyhorse-1.0-t2v(テキスト→動画)
テキストプロンプトのみで動画を生成する基本エンドポイント。カメラワーク指示、マルチショット構成、スタイル指定に対応。
happyhorse-1.0-i2v(画像→動画)
静止画+テキストプロンプトで画像をアニメーション化する。参照画像との視覚的一貫性を維持しながら自然な動きとカメラワークを付与。
happyhorse-1.0-r2v(リファレンス→動画)
最大9枚の参照画像に対応。キャラクターの同一性維持やシーンの一貫性が求められるプロジェクト向け。
happyhorse-1.0-video-edit(動画編集)
自然言語による動画編集。最大5枚の参照画像と組み合わせて、局所的な変更とグローバルなスタイル変更の両方に対応。元動画のモーションダイナミクスを保持する。
料金
| 解像度 | 秒単価 |
|---|---|
| 720P | 0.9元 |
| 1080P | 1.6元 |
全エンドポイント共通。リクエスト単位の課金や最低利用量の制約はない。
5秒の720Pクリップで約4.5元(約90円)。コスト予測が立てやすい構造になっている。
プロンプト設計のポイント
テキスト→動画
カメラワーク指示を明示する
HappyHorseは映像言語への応答精度が高い。「slowly pushes in to medium shot」のような具体的なカメラ指示は、「zoom in」のような曖昧な指示より制御性の高い結果を生む。
マルチショット構成
「Shot 1: ... Shot 2: ... Shot 3: ...」のようにショットを番号付きで記述すると、1回のAPI呼び出しで複数ショットの一貫したトランジションが生成される。
スタイル宣言を先頭に置く
「Anime style」「Hyperrealistic, cinematic」をプロンプト冒頭に置くことで、シーン処理前にスタイルがロックされる。非フォトリアリスティックなコンテンツでは特に重要。
ポートレートのマイクロモーション
クローズアップでは微細な動き(まばたき、わずかな微笑み、葉が頬をかすめる)を指定する。過剰なアニメーションなしに自然な動きが得られる。
画像→動画の6つのテクニック
- 画像の説明は不要 — モデルは参照画像を認識している。動きだけを記述する
- クリーンなソース画像を使う — シャープなフォーカス、良好なライティング。モデルは欠陥も忠実に再現する
- アスペクト比を事前にクロップ — 16:9、9:16、1:1にトリミングしてからアップロード
- カメラ言語を明示 — 「slow push in」は「動かして」より良い結果を生む
- キャラクター一貫性にはI2Vを活用 — 画像生成モデルで静止フレームを作り、HappyHorseでアニメーション化
- 短い尺 = 高い安定性 — リビングフォト的な結果には5秒が最適
開発者への示唆
HappyHorse 1.0の特徴は、品質だけでなく制御性にある。同じプロンプト構造から再現性のある結果が得られることは、プロダクション環境での利用において品質以上に重要な要素だ。
クリエイティブツール、マーケティング自動化、コンテンツパイプラインを構築しているチームにとって、評価対象に加える価値がある。
HappyHorse 1.0はEvoLink経由でAPIアクセスが可能。