YouTube字幕ツールを小さく作るときに考えたワークフローの境界

Posted at 2026-04-21

YouTube動画からtranscriptを取り出すツールを作るとき、最初に決めるべきことは「どこまでを一つの仕事として扱うか」だと考えました。

表面上の要望は「字幕がほしい」です。ですが実際の利用シーンを見ていくと、ユーザーが本当に終わらせたい作業はもう少し後ろにあります。

この観点で見ると、transcriptを画面に表示するだけでは作業はまだ終わっていません。

表示だけではワークフローが止まる

字幕テキストが表示されても、検索できなければ長い文章を目で追う必要があります。

検索で該当箇所が見つかっても、動画のタイムスタンプに戻れなければ前後の文脈を確認しにくくなります。

コピーできても、字幕編集やアーカイブに使う形式で出力できなければ、後段で再び変換作業が発生します。

そのため、AI YouTube Transcriptでは機能を広げる前に、次の小さな流れを先に揃えることを優先しました。

一つひとつは大きな機能ではありません。ただ、この順番でつながると、動画とテキストの間を行き来する負担がかなり下がります。

出力形式は、ユーザーがその後に何をしたいかを表します。

TXTは読み物、メモ、検索、引用整理に向いています。SRTやVTTは時間情報を持つため、字幕編集、動画編集、検証、アーカイブに向いています。

同じtranscriptでも、後続の作業によって必要な形は変わります。だから、出力ボタンを増やすというよりも、「次の作業に渡せる形で終わらせる」ことが重要でした。

この領域には、要約、翻訳、書き換え、素材分類、チーム共有など、追加できそうな機能がたくさんあります。

ただ、最初からそこまで広げると、ユーザーが最初に終わらせたい作業が見えにくくなります。

今回の目的は、動画理解のための大きなプラットフォームを作ることではありません。YouTubeのリンクを入れて、必要なtranscriptを見つけ、確認し、コピーし、使える形式で出力することです。

この境界を先に決めたことで、画面や導線で優先すべきものもはっきりしました。

この種のツールでは、できることだけでなく、できない条件も早めに見せる必要があります。

字幕を取得できるかどうかは、対象のYouTube動画が利用可能なsubtitleまたはcaptionトラックを公開しているかに依存します。利用できるトラックがない場合はtranscriptを読み込めず、テキスト品質も元の字幕トラックに左右されます。

これは細かい注意書きではなく、ユーザーが原因を切り分けるための情報です。

ワークフロー系の小さなツールでは、「失敗したときに何が起きているのか」を説明できることも、使いやすさの一部になります。

小さなツールを作るときは、機能数よりも「どの作業を最後までつなぐか」を先に決めた方が、結果的に判断しやすくなります。

transcriptを表示するだけではなく、検索、タイムスタンプ移動、コピー、TXT/SRT/VTT出力までを一つの流れとして扱う。今回の実装では、この境界を崩さないことを優先しました。

実装例として使ったツールはこちらです。機能の広さよりも、字幕を次の作業に渡すところまでを重視しています。