0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

VK動画アーカイブの「壁」を突破する:API解析からCDN直リンク取得まで、実践的な実装メモ

0
Posted at

お疲れ様です、旧ソ連圏のソーシャルメディア構造を趣味で解析しているエンジニアです。

先日、東欧のテックカンファレンス情報を調査するプロジェクトで「VK(VKontakte)」に投稿された講演動画をローカルに保存する必要が出てきました。「え、VKの動画ってダウンロードできるの?あのロシア発SNSの?」と思われるかもしれませんが、実は適切なアプローチを取れば、技術的には十分解析可能です。

ただし、最初に断っておきます。本記事で紹介する手法は、あくまで個人の学習・研究・情報収集目的での利用を前提としています。VKの利用規約や著作権法、投稿者の意向は必ずご自身で確認し、適法な範囲でご活用ください。クリエイターの作品を無断で再配布・商用利用することは絶対に避けましょう。

VK動画の「見えない構造」を技術的に分解する

YouTubeやFacebookと違い、VKの動画配信にはいくつかの「ちょっと独特な」特徴があります。

  1. al_video.phpエンドポイントの非標準API
    VKの動画メタデータは、/al_video.phpという独自のAJAXエンドポイントで取得されます。GraphQLやRESTとは異なるパラメータ設計に注意が必要です。

  2. 地域別CDNの分散配置
    動画ファイルはcs9-4v4.vkuservideo.nets32241.vkuservideo.netのような地域別CDNに分散されており、適切なエンドポイント選択がダウンロード速度に影響します。

  3. 公開設定の多層化
    「公開」「友達のみ」「リンクを知っている全員」「特定リスト」など、アクセス権限が細かく設定されており、認証トークンの扱いが重要になります。

  4. URLパラメータの暗号的要素
    動画リンクにはz=video-123456_789012345%2Falbum-123456_0%2Frevのような複雑なエンコードが含まれ、単純なパースでは解析が難しい場合があります。

これらの課題を「手動で」突破するのは現実的ではありません。そこで、私が実際に運用している「最小依存・保守性重視」の解析アプローチを紹介します。

vk_pic (1)low.png

核心部分:動画メタデータの取得ロジック(Python例)

まず、VKの動画ページからal_video.php経由で動画情報を取得する基本的な流れです。requestsと正規表現を組み合わせた軽量実装です。

python
import requests
import re
import json
from urllib.parse import urlparse, parse_qs

def extract_vk_video_info(video_url: str) - dict:
"""VK動画URLからメタデータとダウンロードリンクを抽出"""

 1. URLからowner_idとvideo_idを抽出
 対応形式: vk.com/video-123456_789012345
match = re.search(r'video(-?\d+)_(\d+)', video_url)
if not match:
    raise ValueError("owner_idとvideo_idを抽出できませんでした")

owner_id, video_id = match.groups()

 2. al_video.phpエンドポイントにリクエスト
api_url = 'https://vk.com/al_video.php'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Referer': 'https://vk.com/',
    'X-Requested-With': 'XMLHttpRequest'
}

 VKのAPIパラメータ(act=show&al=1は固定)
payload = {
    'act': 'show',
    'al': '1',
    'module': 'direct',
    'video': f'{owner_id}_{video_id}'
}

resp = requests.post(api_url, data=payload, headers=headers)
resp.raise_for_status()

 3. レスポンスの解析(VKは<!-- 区切りでデータを返す)
 例: <!-- 1 --\n{"player":{"params":{...}}}\n<!-- 2 --
text = resp.text
sections = text.split('<!--')[1:]   最初の空要素を除外

 JSON部分を探す
for section in sections:
    section = section.strip().lstrip('1234567890 --\n')
    if section.startswith('{'):
        try:
             複数の行にまたがる場合があるので、最初の}までを取得
            json_end = section.find('}') + 1
            data = json.loads(section[:json_end])
            
             動画情報を抽出
            if 'player' in data and 'params' in data['player']:
                params = data['player']['params']
                return {
                    'title': params.get('md_title'),
                    'description': params.get('md_description', '')[:100],
                    'duration': params.get('duration'),
                    'owner_id': owner_id,
                    'video_id': video_id,
                    'formats': _extract_formats(params)
                }
        except json.JSONDecodeError:
            continue

raise ValueError("動画メタデータを抽出できませんでした")

def _extract_formats(params: dict) - list:
"""利用可能な動画フォーマットを抽出"""
formats = []

 VKはurl_240, url_360, url_480, url_720, url_1080のようなキーで提供
for key in ['url_1080', 'url_720', 'url_480', 'url_360', 'url_240']:
    if key in params and params[key]:
        formats.append({
            'quality': key.replace('url_', ''),
            'url': params[key]
        })

return formats

💡 ポイント: VKのal_video.phpレスポンスは<!--で区切られた複数セクション形式です。また、url_キーは高画質から順に並んでいることが多いですが、存在しない解像度もあるため、動的にチェックする必要があります。

CDN直リンクの有効期限とダウンロードの最適化

VKの動画URL(.vkuservideo.net)には、取得から数時間程度で失効するトークンが含まれている場合があります。このため、メタデータ取得→ダウンロード開始を可能な限り短時間で完結させる設計が重要です。

python
import asyncio
import aiohttp
from pathlib import Path

async def download_vk_video(video_url: str, output_path: str, progress_callback=None):
"""非同期でVK動画をダウンロード(進捗表示対応)"""

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Referer': 'https://vk.com/'
}

async with aiohttp.ClientSession() as session:
    async with session.get(video_url, headers=headers) as resp:
        if resp.status != 200:
            raise ValueError(f"ダウンロードに失敗しました: {resp.status}")
        
        total_size = int(resp.headers.get('Content-Length', 0))
        downloaded = 0
        
        Path(output_path).parent.mkdir(parents=True, exist_ok=True)
        
        with open(output_path, 'wb') as f:
            async for chunk in resp.content.iter_chunked(8192):
                f.write(chunk)
                downloaded += len(chunk)
                
                if progress_callback and total_size:
                    progress = (downloaded / total_size)  100
                    await progress_callback(progress)

※ 実際のプロダクションでは、ダウンロードの中断再開対応・ハッシュ検証・並列セグメント取得などを追加する必要があります。また、CDNの仕様変更に備えて、取得したURLは可能な限り早くダウンロードする設計が望ましいです。

「毎回スクリプトを動かすのは面倒」→ Webツール化の選択

上記のような処理を毎回Pythonスクリプトで実行するのは、リサーチャーやコミュニティ運営者の皆様にはハードルが高いですよね。そこで、私はこのロジックをWebインターフェースにラップし、URLを貼り付けるだけでダウンロードできるようにしました。

今回ご紹介している VK動画ダウンローダー は、まさにそのような「技術的バックエンド + 直感的UI」を組み合わせたツールです。

技術スタックの裏側(少しだけ公開)

  • フロントエンド: Vue 3 + Pinia。URL入力・解析状態・解像度選択をリアクティブに管理。VKのembedプレビューも非同期で取得し、サムネイルを事前表示。
  • バックエンド: Python(FastAPI) + asyncio + httpx。動画解析を非同期で処理し、同時リクエストへの対応を強化。
  • セッション管理: 認証が必要な動画の場合、オプションでVKのログインセッションを利用可能。Cookieは暗号化して保存し、ツールの再起動後も継続利用可能。
  • キャッシュ戦略: 同じvideo_idのメタデータはRedisに1時間キャッシュ。ユーザー体験の向上とVKサーバーへの負荷軽減を両立。
  • セキュリティ: 入力値のサニタイズ、CORS制限、レートリミット(1IP/分間5リクエスト)により悪用を防止。
  • プライバシー: 動画データの一時保存はメモリ内のみ。ダウンロード完了後即破棄。アクセスログにも動画URLを記録しません。

特に「サーバー側に動画を保存しない」設計は重要で、ストレージコストと法的リスクの両方を抑えつつ、ユーザーに「自分の責任でダウンロード」してもらう姿勢を明確にしています。

実際の使い流れ(技術者目線で深掘り)

  1. URLの正規化とバリデーション
    VKの動画リンクにはhttps://vk.com/video-123456_789012345https://vk.com/video?z=video-123456_789012345...https://m.vk.com/video-123456_789012345など、複数の形式があります。ツール内部では正規表現でパターンを判定し、owner_idとvideo_idを抽出して統一処理しています。

  2. 認証フローの柔軟な切り替え
    公開動画は匿名アクセスで対応。友達限定や非公開の動画の場合は、オプションでユーザーのVKログインを要求。認証後はセッションを暗号化して再利用可能に。

  3. フォールバック機構の多層化
    al_video.php APIembedページからのHTMLパースモバイル用APIの試行 の順で試行。これにより「VKが仕様変更しても動かし続ける」という目標に近づいています。

  4. メタデータの付与とファイル命名
    ダウンロードファイルには、動画タイトル・投稿者名・投稿日時を自動で付与。[username] 2024-01-15_tech_talk.mp4のような形式で出力され、後からの整理が格段に楽になります。

開発中にハマったポイント(実体験・失敗談)

① al_video.phpのレスポンス形式が環境によって異なる

最初は「PCブラウザと同じレスポンスがモバイルでも取れる」と思い込んでいたのですが、実際はUser-Agentによって返されるデータ形式が微妙に異なるケースがありました。対策として、ツールでは複数のUser-Agentパターンを試行し、最も豊富なメタデータが取得できるものを選択するロジックを実装。

② CDNトークンの有効期限が「思っていたより短い」

VKのダウンロードURLには?extra=...のようなパラメータが含まれており、有効期限が2〜4時間のことがあります。対策として、メタデータ取得→ダウンロード開始を可能な限り短時間で完結させる設計に。ユーザーには「解析完了後はお早めにダウンロードください」と優しく案内しています。

③ キリル文字ファイル名の文字コード問題

VKの動画タイトルにはロシア語やウクライナ語などのキリル文字が含まれることが多く、ファイルシステムによってはエラーになることがあります。本ツールでは、unicodedata.normalize('NFC', title)で正規化し、さらに危険な文字をアンダースコアに置換するサニタイズ処理を実装。Qiita読者の皆様なら、この「地味だけど重要」な配慮、共感していただけるかと。

python
import unicodedata
import re

def sanitize_filename(text: str, max_length: int = 100) - str:
"""ファイル名として安全な文字列に変換"""
Unicode正規化
text = unicodedata.normalize('NFC', text)
危険な文字を置換
text = re.sub(r'[<:"/\|?\x00-\x1f]', '_', text)
長さを制限
if len(text) max_length:
text = text[:max_length-3] + '...'
return text.strip()

法的・倫理的なラインについて(ここはしっかり書きます)

技術的に「できる」ことと、「してよい」ことは別問題です。本ツールの利用にあたっては、以下の点を強く意識しています。

✅ 推奨される使い方

  • 自分が参加しているコミュニティの重要な情報をオフラインで参照するためのアーカイブ
  • 学術研究・技術調査での一時的な参考利用(再配布なし)
  • 自分が投稿したコンテンツのバックアップ

❌ 避けるべき使い方

  • ダウンロードした動画をYouTubeやSNSに無断で再アップロード
  • プライベート設定の動画を許可なく外部公開
  • 大量ダウンロードによるVKサーバーへの負荷攻撃(レートリミット違反)

ツールページにも明記していますが、ユーザー自身の行動に対する法的責任はユーザー本人にあります。技術者は「できること」を提供するだけでなく、「どう使うべきか」のガイドラインも併せて提示する責任があると考えています。

Qiita読者への特別ヒント:自作ツールに「機能追加」するなら

もし本記事を読んで「自分でも作ってみよう」と思われた方へ、追加で実装すると喜ばれる機能を3つご紹介します。

  1. プロフィール/グループ単位の一括取得
    研究用途では「特定のユーザーやグループの動画をまとめて取得したい」というニーズがあります。VK APIのvideo.getメソッドを活用し、動画一覧を取得→キューに投入→完了順にダウンロード、というフローを実装すると、プロユースに一気に近づきます。

python
def fetch_user_videos(user_id: str, access_token: str, count: int = 100) - list:
"""VK APIを使ってユーザーの動画一覧を取得"""
url = 'https://api.vk.com/method/video.get'
params = {
'owner_id': user_id,
'count': count,
'access_token': access_token,
'v': '5.199' APIバージョン
}
resp = requests.get(url, params=params)
data = resp.json()

if 'response' in data and 'items' in data['response']:
    return [
        {
            'owner_id': item['owner_id'],
            'video_id': item['id'],
            'title': item.get('title'),
            'url': f"vk.com/video{item['owner_id']}_{item['id']}"
        }
        for item in data['response']['items']
    ]
return []
  1. メタデータのJSON/CSV出力
    動画タイトル・投稿者・再生回数・コメント数・投稿日時などを構造化データで出力できるようにすると、分析用途での活用が格段に便利になります。

  2. ブラウザ拡張機能との連携
    VK閲覧中に「この動画保存したい」と思った瞬間に、拡張機能からツールに動画リンクを送信。UXが劇的に向上します。chrome.runtime.sendMessageとFastAPIのエンドポイントを組み合わせるだけなので、実装コストも低め。

おわりに:技術は「情報の整理」のために

VK動画のダウンロードというテーマは、一見「便利ツール」の域を出ないように見えるかもしれません。しかし、裏側を覗くと、独自API解析・CDN最適化・非同期処理・UI/UX設計・法遵守…と、フルスタックエンジニアの腕が試される要素が詰まっています。

今回ご紹介した VK動画ダウンローダー は、そうした技術的課題を「誰でも使える形」に落とし込んだ一つの答えです。もちろん完璧ではなく、VKの仕様変更には随時対応が必要ですが、オープンな技術スタックで構築しているため、コミュニティからのフィードバックも歓迎しています。

📌 最後に一言
技術の可能性を追求する一方で、プライバシーとコミュニティの信頼を忘れずに。
「情報をアーカイブする」と「信頼を守る」のバランスを取ることこそ、プロフェッショナルの腕の見せ所だと信じています。

何か質問や技術的な議論があれば、コメント欄で気軽にどうぞ。
それでは、よいVKライフを!🇷🇺✨

参考リンク

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?