はじめに
Kuaishou(快手)が2026年2月5日にリリースした Kling 3.0 は、AI動画生成の実用性を大きく引き上げたアップデートです。4Kネイティブ解像度、1生成で最大6カットのストーリーボード機能、5言語対応の音声統合が一度に使えるようになりました。
公式APIも整備されており、Python から直接呼び出してワークフローに組み込めます。本記事では Kling 3.0 の主要機能と、公式 API を使った実装方法を解説します。
この記事で学べること
- Kling 3.0 の新機能と技術的特徴
- 公式 Kling API のセットアップ手順
- Text-to-Video / Image-to-Video の Python 実装
- マルチショットストーリーボードの活用法
- 料金体系と他サービスとの比較
対象読者
- AI動画生成ツールに興味があるエンジニア
- Sora・Runway・Seedance などの代替手段を探している方
- 動画生成を自社プロダクトやワークフローに組み込みたい方
前提条件
- Python 3.9以上
- Kling AI アカウント(klingai.com で作成可能)
- APIキー(開発者ポータルで発行: klingai.com/global/dev)
TL;DR
- Kling 3.0 は 4Kネイティブ解像度・15秒・5言語音声統合を実現した最新 AI 動画生成モデル
- 6カットのマルチショットストーリーボードで短編動画を1回の生成でまとめて作れる
- Video 3.0 Omni でキャラクターの外見・音声を別シーンへ継承可能
- 公式 API は
https://api.klingai.comで提供。料金は Standard $0.084/秒 - Python SDK が提供されており、
pip install kling-sdkで導入可能
Kling 3.0 の概要
Kling はKuaishouが開発するAI動画・画像生成プラットフォームです。2024年5月のv1.0以降、急速にアップデートを続けており、2026年2月の Kling 3.0 では以下の4モデル体系が導入されました。
| モデル | 用途 | 解像度 |
|---|---|---|
| Video 3.0 | テキスト・画像からの動画生成(標準) | 最大4K |
| Video 3.0 Omni | キャラクター継承・複数人物対応 | 最大4K |
| Image 3.0 | テキスト・画像からの静止画生成 | 最大2K |
| Image 3.0 Omni | 高解像度・高品質な静止画生成 | 最大4K UHD |
バージョン体系も整理されており、Kling O1(2025年12月、統合マルチモーダルモデル)およびKling 2.6(2025年12月、音声・映像の同時生成)が先行して登場しています。
3.0 で新しくなった主なポイント
公式IR(Kuaishou Investor Relations)から確認できる変更点は以下のとおりです。
- 4Kネイティブ動画: 最大3840×2160の解像度で出力可能(従来は1080p上限)
- マルチショットストーリーボード: 1リクエストで最大6カットを生成し、各ショットのカメラサイズ・アングル・カメラムーブメントを個別指定可能
- Video 3.0 Omni: 参照動画をアップロードすることで、キャラクターの外見・音声特性を新しいシーンへ継承。複数キャラクターの独立制御に対応
- 5言語ネイティブ音声: 英語・中国語・日本語・韓国語・スペイン語の音声生成に対応
- テキスト保持: 動画内の看板・キャプション・ブランドロゴを高精度で維持
API セットアップ
アカウントと APIキーの発行
- klingai.com/global/dev の開発者ポータルにアクセス
- アカウントを作成してログイン
- 「API Keys」セクションから新規キーを発行
- APIキーと Secret をコピーして安全に保管
認証方式
Kling API は JWT(JSON Web Token)をベースにした認証を採用しています。APIキー(ak)と Secret(sk)から署名付きトークンを生成してリクエストヘッダーに含めます。
import jwt
import time
def generate_kling_token(api_key: str, api_secret: str) -> str:
"""Kling API用のJWTトークンを生成する"""
payload = {
"iss": api_key,
"exp": int(time.time()) + 1800, # 30分有効
"nbf": int(time.time()) - 5,
}
return jwt.encode(payload, api_secret, algorithm="HS256")
PyJWTとkling-apiが必要です。pip install PyJWT kling-apiでインストールしてください。
環境変数の設定
export KLING_API_KEY="your_api_key_here"
export KLING_API_SECRET="your_api_secret_here"
Text-to-Video の実装
Kling の動画生成はタスクキュー方式で動作します。リクエスト後にタスクIDを受け取り、完了をポーリングする設計です。
import os
import time
import requests
import jwt
KLING_BASE_URL = "https://api.klingai.com"
def generate_token() -> str:
api_key = os.environ["KLING_API_KEY"]
api_secret = os.environ["KLING_API_SECRET"]
payload = {
"iss": api_key,
"exp": int(time.time()) + 1800,
"nbf": int(time.time()) - 5,
}
return jwt.encode(payload, api_secret, algorithm="HS256")
def create_text_to_video(
prompt: str,
model: str = "kling-v3",
duration: int = 5,
aspect_ratio: str = "16:9",
) -> str:
"""Text-to-Videoタスクを作成してタスクIDを返す"""
token = generate_token()
headers = {
"Authorization": f"Bearer {token}",
"Content-Type": "application/json",
}
payload = {
"model_name": model,
"prompt": prompt,
"duration": duration, # 秒 (5 or 10)
"aspect_ratio": aspect_ratio, # "16:9", "9:16", "1:1"
}
response = requests.post(
f"{KLING_BASE_URL}/v1/videos/text2video",
headers=headers,
json=payload,
)
response.raise_for_status()
data = response.json()
return data["data"]["task_id"]
def wait_for_completion(task_id: str, timeout: int = 300) -> dict:
"""タスクの完了を待機して結果を返す"""
token = generate_token()
headers = {"Authorization": f"Bearer {token}"}
start_time = time.time()
while time.time() - start_time < timeout:
response = requests.get(
f"{KLING_BASE_URL}/v1/videos/text2video/{task_id}",
headers=headers,
)
response.raise_for_status()
data = response.json()
status = data["data"]["task_status"]
if status == "succeed":
return data["data"]["task_result"]["videos"][0]
elif status == "failed":
raise RuntimeError(f"タスク失敗: {data['data'].get('task_status_msg')}")
print(f"生成中... ステータス: {status}")
time.sleep(10)
raise TimeoutError("タイムアウト: 動画生成が完了しませんでした")
# 使用例
if __name__ == "__main__":
task_id = create_text_to_video(
prompt="A futuristic cityscape at sunset, flying cars, neon lights reflecting on wet streets",
model="kling-v3",
duration=5,
)
print(f"タスクID: {task_id}")
video_info = wait_for_completion(task_id)
print(f"生成完了: {video_info['url']}")
Image-to-Video の実装
静止画を起点に動画を生成する Image-to-Video も同様の構造で実装できます。画像は URL または Base64 で渡します。
import base64
from pathlib import Path
from typing import Optional
def image_to_base64(image_path: str) -> str:
"""画像ファイルをBase64エンコードする"""
return base64.b64encode(Path(image_path).read_bytes()).decode("utf-8")
def create_image_to_video(
image_url: Optional[str] = None,
image_path: Optional[str] = None,
prompt: str = "",
model: str = "kling-v3",
duration: int = 5,
) -> str:
"""Image-to-Videoタスクを作成してタスクIDを返す"""
token = generate_token()
headers = {
"Authorization": f"Bearer {token}",
"Content-Type": "application/json",
}
# 画像はURLまたはBase64で指定
if image_url:
image_data = {"type": "url", "url": image_url}
elif image_path:
image_data = {
"type": "base64",
"base64": image_to_base64(image_path),
}
else:
raise ValueError("image_url または image_path を指定してください")
payload = {
"model_name": model,
"image": image_data,
"prompt": prompt,
"duration": duration,
}
response = requests.post(
f"{KLING_BASE_URL}/v1/videos/image2video",
headers=headers,
json=payload,
)
response.raise_for_status()
return response.json()["data"]["task_id"]
マルチショットストーリーボード
Kling 3.0 の目玉機能のひとつが、1リクエストで最大6カットを生成できるマルチショットストーリーボードです。各カットにカメラサイズ(ロング・ミディアム・クローズアップなど)やカメラムーブメント(パン・ズーム・トラッキングなど)を指定できます。
def create_multi_shot_video(shots: list[dict]) -> str:
"""
マルチショットストーリーボードを生成する
shots: [
{
"prompt": "カットの説明",
"camera_type": "close_up", # long / medium / close_up
"camera_movement": "zoom_in", # static / pan_left / pan_right / zoom_in / zoom_out
},
...
]
最大6カットまで指定可能
"""
if len(shots) > 6:
raise ValueError("ショット数は最大6カットです")
token = generate_token()
headers = {
"Authorization": f"Bearer {token}",
"Content-Type": "application/json",
}
payload = {
"model_name": "kling-v3",
"mode": "storyboard",
"shots": shots,
}
response = requests.post(
f"{KLING_BASE_URL}/v1/videos/text2video",
headers=headers,
json=payload,
)
response.raise_for_status()
return response.json()["data"]["task_id"]
# 使用例: 3カットの短編動画
task_id = create_multi_shot_video([
{
"prompt": "A chef prepares ingredients in a bright modern kitchen",
"camera_type": "medium",
"camera_movement": "static",
},
{
"prompt": "Close-up of colorful vegetables being chopped on a wooden board",
"camera_type": "close_up",
"camera_movement": "zoom_in",
},
{
"prompt": "The finished dish plated beautifully on a white plate",
"camera_type": "close_up",
"camera_movement": "pan_right",
},
])
Video 3.0 Omni: キャラクター継承
Video 3.0 Omni は参照動画からキャラクターの外見・声質・表情パターンを抽出し、新しいシーンに適用する機能です。複数のキャラクターを独立して追跡・制御できます。
def create_omni_video(
reference_video_url: str,
prompt: str,
duration: int = 5,
) -> str:
"""Video 3.0 Omni でキャラクター継承動画を生成する"""
token = generate_token()
headers = {
"Authorization": f"Bearer {token}",
"Content-Type": "application/json",
}
payload = {
"model_name": "kling-v3-omni",
"prompt": prompt,
"reference_video": {"url": reference_video_url},
"duration": duration,
}
response = requests.post(
f"{KLING_BASE_URL}/v1/videos/text2video",
headers=headers,
json=payload,
)
response.raise_for_status()
return response.json()["data"]["task_id"]
料金体系
公式料金表(klingai.com/global/dev/pricing)で確認できる主な料金は以下のとおりです。
| モデル | プラン | 料金 |
|---|---|---|
| kling-v3 | Standard | $0.084/秒 |
| kling-v3 | Pro | $0.112/秒 |
| kling-v3-omni | Standard | $0.084/秒 |
| kling-v3-omni | Pro | $0.112/秒 |
| kling-video-o1 | Standard | $0.084/秒 |
| kling-video-o1 | Pro | $0.112/秒 |
| kling-v2-6 | Standard(5秒) | $0.21 |
| kling-v2-6 | Pro(10秒) | $1.68 |
| kling-image-o1 | - | $0.028 |
Pro プランでビデオ入力(Image-to-Video 等)を使用する場合は $0.168/秒 が適用されます。最新の料金は公式料金ページで確認してください。
試算例: kling-v3 Standard で5秒動画を生成した場合、$0.084 × 5 = $0.42(約63円)。
他サービスとの比較
主要 AI 動画生成サービスとの比較をまとめました(各社公開情報をもとに整理)。
| 観点 | Kling 3.0 | Sora 2 | Runway Gen-4 | Veo 3.1 | Seedance 2.0 |
|---|---|---|---|---|---|
| 最大解像度 | 4K | 1080p | 1080p | 4K | 非公開 |
| 動画長 | 15秒 | 非公開 | 16秒 | 非公開 | 非公開 |
| 音声生成 | 5言語対応 | 非対応 | 非対応 | 対応 | 対応 |
| マルチショット | 最大6カット | 非対応 | 非対応 | 非対応 | 非対応 |
| API提供 | あり | あり | あり | 限定的 | 非公開 |
| 強み | コスト・量産・音声統合 | 物理シミュレーション | 創作的編集 | シネマ品質 | マルチモーダル |
Kling 3.0 は最高品質の映像リアリティでは Veo 3.1 や Sora 2 に劣る場面もありますが、コストパフォーマンス・大量生成・音声統合・APIへの組み込みやすさで優位性があります。
注意点
4K生成時の処理時間
4K解像度はファイルサイズが大きいため、処理時間が長くなります。プロダクション用途では非同期処理とウェブフックの活用を検討してください。
マルチショットの制約
各カットの長さはシステムが自動決定します(ユーザー側からは指定不可)。カット間のシーン一貫性は高いものの、キャラクターの外見が変わる場合は Video 3.0 Omni の使用が有効です。
音声生成の言語設定
プロンプト内の言語が自動判定されますが、明示的に audio_language パラメータで指定することが推奨されています。日本語は ja-JP を指定します。
APIキーの管理
APIキーと Secret は環境変数または Secret Manager で管理し、コードにハードコードしないでください。
まとめ
- Kling 3.0 は4Kネイティブ解像度・15秒・5言語音声統合を実現した AI 動画生成モデル
- マルチショットストーリーボードで1リクエストから最大6カットの短編動画を生成可能
- Video 3.0 Omni でキャラクター継承・複数人物制御に対応
-
公式 API (
https://api.klingai.com) が整備されており、Python で容易に統合可能 - 料金は Standard $0.084/秒で、コストパフォーマンスを重視する用途に適している
マルチショット機能と音声統合は Kling の差別化ポイントです。動画生成を量産したい場面や、音声付き動画を自動化したいワークフローで積極的に活用できます。



