2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Intimate MergerAdvent Calendar 2024

Day 20

Silero-VAD,Whisper,Perplexityで高性能音声要約システム作ってみた

Last updated at Posted at 2024-12-19

はじめに

こんにちは、インティメート・マージャーの直人です。
音声ファイルを文字起こしして要約するシステムを作ったのでご紹介します!

普段の1on1やオンライン会議などの内容を素早くまとめて記録に残したいと考え、制作しました!

今回、音声を要約する手順は以下の通りです。

  1. 音声ファイルから無音区間を除去
  2. 音声を文字起こし
  3. 文章を要約

GitHubにソースコードを公開したのでよかったらどうぞ!

CPUでも動作するように実装しました

この記事のコードはわかりやすくするために、GitHubのコードとは少し内容を変更しています。

使用した技術

種類 技術
言語 Python 3.11
無音除去 silero-vad
文字起こし Whisper (kotoba-whisper-v2.0)
要約 Perplexity API

いずれも日本語に対応しています!

必要なライブラリ ・ ツール

ライブラリ

Whisperを使用するには、PythonNumpyのバージョンに注意が必要です!
対応しているバージョン以外を使用しようとするとエラーになります!
(2024年12月時点)

  • Python:3.8 〜 3.11のみ対応
  • Numpy:2.0未満のみ対応

ツール

Silero-VADを使うためには、以下のツールのインストールが必要です。

Dockerを使用する場合は、Dockerfileに以下を記載してインストールできます。

Dockerfile
RUN apt-get update && apt-get install -y ffmpeg sox

実装内容

ディレクトリ構成

.
├── app
│   ├── main.py
│   ├── remove_silence.py
│   ├── speech_to_text.py
│   └── summary.py
├── input_audios
└── output_summaries
  • input_audios:要約したい音声ファイルを入れるフォルダ
  • output_summaries:要約結果の.txtファイルが出力されるフォルダ

メインの処理

main.py
import sys
from pathlib import Path

from remove_silence import remove_silence
from speech_to_text import speech_to_text
from summary import summary

# 入力・出力するフォルダのパス指定
INPUT_AUDIO_FOLDER = Path("../input_audios")
OUTPUT_SUMMARY_FOLDER = Path("../output_summaries")
# 読み込みを許可する拡張子のリスト
AUDIO_EXTENSIONS = [".mp3", ".wav", ".m4a"]
# Silero-VADとWhisperのサンプリングレートを指定
SAMPLING_RATE = 16000


def main():
    # input_audiosフォルダから音声ファイルを取得、取得できなければ終了
    audio_files = get_audio_files()
    if not audio_files:
        print("音声ファイルが見つかりません。入力可能なファイル形式: mp3, wav, m4a")
        sys.exit(1)

    for audio_file in audio_files:
        # 無音を除去した音声ファイルを取得
        no_silence_audio = remove_silence(audio_file, SAMPLING_RATE)

        # 文字起こししたテキストを取得
        transcribed_text = speech_to_text(no_silence_audio, SAMPLING_RATE)
        print(transcribed_text)

        # 要約したテキストを取得
        summary_text = summary(transcribed_text)
        print(summary_text)

        # 要約結果をoutput_summariesフォルダに書き出し
        output_path = OUTPUT_SUMMARY_FOLDER / f"{audio_file.stem}.txt"
        with open(output_path, "w", encoding="utf-8") as f:
            f.write(summary_text)

        print(f"完了: {audio_file}")

    # すべての音声ファイルを処理したら終了
    sys.exit(0)


def get_audio_files():
    """対応する拡張子のオーディオファイルのリストを取得"""
    audio_files = [f for f in INPUT_AUDIO_FOLDER.iterdir() if f.is_file() and f.suffix.lower() in AUDIO_EXTENSIONS]
    return audio_files


if __name__ == "__main__":
    main()

無音除去 (Silero-VAD)

Silero-VADとは?

高精度で音声活動検出(Voice Activity Detection)することができるライブラリです。
このライブラリを活用することで、無音区間を除去して発話区間のみを抽出できます。

Whisperで文字起こしをすると、「ご視聴ありがとうございました」や不明な単語が繰り返し表示されてしまった経験はありませんか?
その原因は、適切に無音区間を除去できていないからです。

高精度の文字起こしを実現するためには、高精度の無音除去も必須です!

ソースコード

remove_silence.py
from silero_vad import collect_chunks, get_speech_timestamps, load_silero_vad, read_audio

def remove_silence(audio_file, sampling_rate):
    # モデルのロード
    model = load_silero_vad(onnx=False)

    # 音声ファイル読み込み
    audio = read_audio(audio_file, sampling_rate=sampling_rate)

    # 発音区間を取得
    speech_timestamps = get_speech_timestamps(audio, model, sampling_rate=sampling_rate)

    # 無音区間を除いた音声ファイルを返す
    return collect_chunks(speech_timestamps, audio)

参考

文字起こし (Whisper)

Whisperとは?

入力した音声をテキストに変換(文字起こし)できるライブラリです。
多くのモデルが公開されており、モデルによって精度や実行速度等が異なります。

API経由で利用する場合は料金がかかりますが、モデルをダウンロードしてローカル環境で実行すると無料で利用できます。

kotoba-whisper-v2.0とは?

Whisperのlarge-v3モデルを日本語に特化させ、高速化・高精度を実現したモデルです。
今回はv2.0を使用しましたが、v2.2まで出ているようです

ソースコード

speech_to_text.py
import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor


def speech_to_text(audio, sampling_rate):
    # 使用するモデルを選択
    model_id = "kotoba-tech/kotoba-whisper-v2.0"

    # GPUが使用できる場合はGPUを使用
    device = "cuda" if torch.cuda.is_available() else "cpu"

    # モデルのロード
    processor = WhisperProcessor.from_pretrained(model_id)
    model = WhisperForConditionalGeneration.from_pretrained(model_id).to(device)

    # 音声データの前処理
    input_features = processor(
        audio,
        return_tensors="pt",
        truncation=False,
        padding="longest",
        return_attention_mask=True,
        sampling_rate=sampling_rate,
    ).input_features.to(device)

    # 文字起こしを実行して結果を返す
    generated_ids = model.generate(input_features, return_timestamps=True)
    return processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

参考

要約 (Perplexity API)

Perplexity APIとは?

Perplexity AIは検索・要約に特化した生成AIで、APIから利用することもできます。
Perplexity AI Proに加入すると、毎月$5のAPIクレジットがもらえます。

  • 使用したモデル: llama-3.1-sonar-large-128k-online
  • 料金(2024年12月時点): 100万トークンあたり$1

ソースコードの定数TOKENに、APIキーを入力してください。

プロンプトはお好みで変更してください。
モデルの設定も細かくできますが、今回はほとんどドキュメント通りの設定です。

ソースコード

summary.py
import requests

# トークンの設定
TOKEN = "ここにAPIトークンを入力"

PROMPT = """
これは会話の音声を文字起こししたものです。
要約して、Markdown記法で以下のフォーマットで出力してください。

## 【3行要約】
- 会話全体を3行で要約

## 【主要トピックス】
### タイトル
- 内容

## 【その他】
- 主要トピック以外の役立ちそうな話題を箇条書き
"""


def summary(transcribed_text):
    # モデルの設定
    payload = {
        "model": "llama-3.1-sonar-large-128k-online",
        "messages": [
            {"role": "system", "content": PROMPT},
            {"role": "user", "content": transcribed_text},
        ],
        "temperature": 0.2,
        "top_p": 0.9,
        "return_images": False,
        "return_related_questions": False,
        "search_recency_filter": "month",
        "top_k": 0,
        "stream": False,
        "presence_penalty": 0,
        "frequency_penalty": 1,
    }

    # ヘッダーの設定
    headers = {
        "Authorization": f"Bearer {TOKEN}",
        "Content-Type": "application/json",
    }

    # 要約を実行
    url = "https://api.perplexity.ai/chat/completions"
    response = requests.request("POST", url, json=payload, headers=headers)

    # レスポンスから要約結果のみ取得して返す
    response_json = response.json()
    return response_json["choices"][0]["message"]["content"]

参考

実際に使ってみる

1. 介護福祉経営士全国会議2021サンプル(10分33秒)

動画の選定理由

  • 大人数の会話に対応できるか(無音除去・文字起こし)
  • 専門用語を認識できるか(文字起こし・要約)

結果

動画時間 10分33秒
処理時間 12分20秒
(無音除去) (12秒)
(文字起こし) (11分58秒)
(要約) (10秒)
文字起こし結果

ゆるゆるとですね、テーマにありましたよりコロナということで事業環境で大きくも影響せざるを得なかったと思えなかったと思いますが実際どんなことはあってどんな対応しましたっていうところぐらいからですねまたちょっとお話していただきたいと思いますが逆に今度はどうしたいったところからどうからやっていったとまたちょっとバラバラ当ててていきたいと思いますがどんな状況だったか教えていただければと思いますコロナということで未知のウイルスというところで一番初めの所蔵の対応は非常に難しかったかなというところで例えば東京で500人になると金川県の中で500人ぐらいと思ってくると東京は神奈川と同じ経済圏なので例えば東京で例えば東京で500人になると神奈川県も大体500人ぐらいになってくるとうちの職員も全員総数で550人ぐらいなんですけれども一番一人あたりというか家族が感染し始めたりだとかさまざまな対応が必要になってきたかなというところではあります一番が対応が必要になってきたかなというところではあります面会がずっとできていないという状況が一番大きいかなというふうにも思っていますワクチン接種に関してはスムーズに5月ぐらいから進んでご利用者もご利用者もみんなその代表的にもみんな特定してその中で対応としてもいいですねスポーマータートランメーションをかなり僕は推進しました具体的にはそんなところありますかデジタルトランスフォーメーションに関して代表的なところだけでもいいんですまだね深盛りはこれからということで一つはですねムーグ面会とかも一般的になっていましたよねどちらかのでも連絡ツールに関してもLINEを活用したりだとか編集に関してもYouTubeを使ったりであったりだとかどちらかというと職員がなじんでいるものを一般的になじんでいるものを中心にいろいろなコロナっていうものを迎えてその前後ですとか今はどういう関係もやってますね今どういう関係もやってますねどのようなコロナーっていうものを迎えてそのような現場合いっていますコロナ禍の当時ですね、やはり今までデイサービスやリハビリ機能訓練、逆に施設から行かれてた方がどうしてもストップになってしまったということが、その中でメーカさんから今回の件でちょっと謝明出してもいいってことだったので、出させていますが、パナソニックさんがですね、あの、歩行リハビリロボットをあの、春に、リーリースしておそのパナソニックさんの歩行リハビリロボットを導入することによってですねAIが備わっているということなのでそれをご家族様の機能訓練にあったものだったりとかあとはリハビリーに合わせたものだったりとかそういった負荷が合わせたものだったりとかですねあとはご家族様々やご親族族族族盛オンライン上やもしくはデータ上でですね見える化の機能が備わっておりますのでそういった意味では担当者会議がオフラインでできない中でですねオンライン上でですねオンライン上で制度の高いリハビリだったりとかどういった商品を今後すべきかのその商品を利用してツールを入れるかで自然とDXにつながるようなところも思い切りできたのかなと思いますがやはりコロナになっていてもやっぱり住宅とかデイサービスなど本当に大変だったと思いますがやっぱり大変なの方は本当に大変だったと思いますが私たち法人の方もですね主にレイサービス事業を主に行っていますのでコロナ禍の前はコロナの前はコロナの前はリハビリを特化もしくは行事を中心に行っていましたのでこの1年半に関しましてはスーパーへの買い物会であったり遠方への外出等が全て自粛中止になるような形になりましてそれで間違った形で屋外での屋外での奥外での宿を浴びながらの少人数での体操と含めて職員がですねみんなでいろいろ知恵を絞ってサービスの内容も少しず少しずつかってはまたまた利用者様や地域向けとしましては外出が減ることでストレスがたまったり認知機能面の低下を防ぐために移動販売という形で実際に行っている状況になっておりましてまたその他にも配食サービスであったり物買い物も含めてまた違った形で地域投流者様に対して代わりの当然ながですね、いろいろこう自業運営の継続も含めていろいろあるかと思うんですけども、自業運営の情報を含めているところで今、職員のマネジメントも今、いろいろいろご体験があると思いますので、そこら辺、ちょっとお話でコロナーってて職員のマネジムがあると思っていろいろご体験があると思いますので、そこら辺ちょっとお話聞かせていただいてよろしいですか。うちは去年の11月に1人、職員でパートさんが家族の方から感染を含めて多くなっていた時期に、その当時はまだその地方圏に身に当たってそんなよくなかったので当時も東京とか首都圏関西を含めて多くなっていた時期にそうですね一人それがそういったことが起きているとその関連の人が出ていけないみたいなことを実際起きてたような時期だったんですけど警戒はしてましたけど実際起きた時にいろんなことが試されたといいますか私であれば経営者としてどういう覚悟を持ってそういった対応をするのかあとはそういう被害的なものの方が結局多かったのでその二次的被害に対しての方が実際動いていた時には重要だったのでそこどういう覚悟を持っていくかっていくかって一緒に成長していけるかみたいなところがところが大事だったなと思ってます一番は私からの支持をちゃんと徹底して職員も私も含めて成長にしっかりしていくことが大事だと思っていたのでそこら辺はまとまってやれていたとは思うんですけど逆にコロナ禍に入ってからの方が私も含めてですね、成長につながったのかなというふうに考えてますけどね、今、チャットに何か同様ありましたかって、やっぱり職員間の動揺っていろいろあると思うんですけども、一番最初に感染というのは、職員間の動揺っていろいろあると思うんですけども、普段は冷静な年配の男性の職員が現場から一人出た時に急に動揺し始めて急に何かこういう間を患者してこのままこの細か的に落ち着いて結局その細かいことを話していると時間がありとかすると時間がありましたけど今後は正解的に落ち着いて結局その細かいことを話してすると時間があるんですけど濃厚接触者でもなかったのでその人はですねその後知識が少ないが上にそういったことを起きる前に教育がしてたつもりだったんですけどちょっと違う部分を抑えていくということの方が実際大変なのはその当時ありましたその後も大変な場所でたくさん増えていったのでしたの方が自分が直面したのはそういう部分でただ感染対策も我々なみはしっかりしていたつぼりだったので同じ時期に老犬でもすぐ近くの老犬でも出て60人ぐらい感染して何人もなくなったことがあったんですね警察署も50人ぐらいのクラスターになったのでそれは結果的に普段の頑張りが出たのかなと思ってますけど

要約結果

## 【3行要約】
- コロナ禍における事業環境の影響と対応について話す。特に、職員と利用者の感染対策、デジタルトランスフォーメーションの推進、リハビリサービスへの影響が焦点。
- 職員のマネジメントと精神的なサポートが重要であったと語る。
- コロナ禍での挑戦と成長について詳細に説明。
## 【主要トピックス】
### コロナ禍の影響と対応
- コロナ禍で事業環境が大幅に影響を受け、特に職員と利用者の感染対策が難しかった。
- 東京や神奈川県での感染拡大に伴い、職員も家族の感染が増え、面会ができなくなった。
- ワクチン接種はスムーズに進み、デジタルツール(LINE、YouTubeなど)を活用して対応。
### デジタルトランスフォーメーション
- デジタルツールを活用してオンライン面会やリハビリサービスを提供。
- パナソニックの歩行リハビリロボットを導入し、AIを利用したリハビリを行った。
- オンライン上でのリハビリとデータの見える化が重要になった。
### 職員のマネジメントと精神的なサポート
- 職員の動揺や精神的なストレスに対して、経営者としての支持と成長への取り組みが重要。
- 普段冷静な職員も感染の影響で動揺し、教育とサポートが必要になった。
- 感染対策の徹底と職員の精神的なサポートが成長につながった。
## 【その他】
- コロナ禍でデイサービスやリハビリ機能訓練がストップになったため、代替のサービス(移動販売、配食サービスなど)を実施。
- 職員間のコミュニケーションとサポートが重要で、特に感染が広がる前に教育と準備が必要だった。
- 近隣の施設や警察署でのクラスター発生に対して、自社の感染対策の効果を実感。

所感

文字起こし

  • 全体的に誤字脱字は少なく、専門用語に対しても正しい表記ができている印象
  • しかし、元の音声と文章を比較してみると、ところどころ文字起こしができていないことがわかる

要約

  • デジタルトランスフォーメーションパナソニックの歩行リハビリロボット等の用語も正しく表記できている
  • プロンプト通りの出力形式にもなっており、わかりやすくまとまっている

2. 綺麗事言わないスコットランド在住のフォトグラファーな奴(14分56秒)

動画の選定理由

  • 環境音や雑音があっても正確に文字起こしできるのか(無音除去・文字起こし)
  • ネタを理解して要約できるか(要約)

結果

動画時間 14分56秒
処理時間 12分49秒
(無音除去) (15秒)
(文字起こし) (12分22秒)
(要約) (12秒)
文字起こし結果

よろしくお願いしますスコットランドエディンバラを中心に街が美しいマッチがきれいですねこういうコットランドを中心に活動されているキッドラーを中心にキッズスマイルフォトラファーだと思うんですね子どもの笑顔を中心に写真撮影があるのかなと思ったんですよ今こうやって初めて出会って本当にこの30分前ちょっと打ち合わせしたよつこは初めて見たよやはり初めてお会いしてやはりこれもあるんですけども子どもの笑顔をだけを撮影してしかも海外に羽ばたいているのは本当に無理だと思うんですねやはりこの数が少ないよねそれもあるんですけどもやっぱり素敵な職業だなと思うわけですよなぜ子どもの笑顔を検定でこの写真を撮ろうと思われたんですかでも車が来ないんだんですかねでもやっぱりこの写真が取られてるかなと思うでもやっぱりこれやってる人いないだろうと車車来るかないだろうなでもやっぱりこの写真が撮らしい笑顔だって評判なわけじゃないですかやはり子どもの笑顔を引き出すコツみたいなコツみたいなってあるんですか子どもの笑顔ってはずっと笑ってるからねでも一緒やっぱりですねやっぱりですねそのやっぱりですね子どもの笑顔撮るっていうのはまったく別物のわけじゃないですかその大事ものは全く別物のわけじゃないですかでも一緒やだからだからそれは絶対を切ると言うのはいやそんなことはないですよいやーありますよいやーこれはこれはややるなそれはそれはでもないややらえないやでもないやそんなことはありますよそれはしかも活動拠点をスコットランドに選んだその理由とはそうですね、数が少ないからライバルがいないやる日本だとやっぱり日本だとやっぱりやっぱりこの世のあるわけじゃないですかなぜ?その戦略的な意味合いもあるんだけども戦略的な言いもんですね。やっぱりこの笑顔の写真を子供の笑顔をこのフィルムに収められた時ってのはやっぱりメモリーカードやつかない作業が多くなるし現像でもない何て言うけどなって何と言いますかね本当に言うまいっただけでやっぱりこの子どもの笑顔を押された時にやっぱりうれしい気持ちになるこの仕事の一番のやりがいからやっぱり目立つことができるその一番のやりがいとは?その一番のやりがいとは?その一番のやりがいとは?この1枚を聞かせていただきますあのキッズスマイルフラフォルフォル子どもの子どもの笑顔のやりがいとは一番のやりとは200枚、原造できるから焼き回し1枚の作業がそれが一枚売れたポストカードが3万枚売れたらそれがもう3万枚売れたらもう1枚それがスコットランドかけてるからお子様のねえ現象台たちは現象台たちは1枚とかがポストカードっぽい前も売れたらもうちょいなんかスコットランドっぽい背景ないですかねこれコットランド感の医師なんでたらのはいいいこと言ってよすばらしい職業だと思うんですよ本当に素晴らしい仕事業だと思うんですねはいやり子どもの笑顔だと思うんですねいいこと言ってよいいこと言ってよすばらしい職業だと思うんですよ本当に素晴らしい職業だと思うんですねやはり子どもの笑顔を撮ることによってさらにさらにいいことを言えないよいいことを言えいいことを言えないよこっと言えないよごと言えないことを言えないこと言えいいこと言えウトランドの来てるんですよ夕方のニュースでそういえば子供の微数とかめっちゃうとかそれじゃなくて夢でもね夢でもね夢でもねおなかりでる時はねえでもね日本だときゃあ子どもの笑顔とか夢に出てるよねだからきギュースコミューやでもスコットランド実は調べたら僕数がね3人ぐらいしかね子供を撮るカメラマンだから子どもを撮るカメラマンだから子どもの笑顔ってるわけじゃないですかその愛おうその愛おう人の考えてるとかどうやるやろい親父さんの人やからない何て聞いたらないよなあの昔撮った笑顔の子供の子供ってあの時はなかった長いだわけじゃないですか本当に嬉しいんじゃないですか本当に嬉しいんだよね?いいこと言うね大きなのね。大きなかったですよね?中1位以降アウトランド来てんねんぞ他人の子供はやっぱり他人の子どもが中心そんな言葉ってない子供の表現子どもの表は僕のパワーですってくださいって言うえ子どもの笑顔が僕のパワーが僕の源です言葉って聞きますか?あなたのパワーの源はってくださいこの景色の源はつばりこの景色はお前はねおいおいしいおいおいしいのニンニクの表情がいいって言うなほんまにあなたのパーの源は言ってくださいあなたのパーの源はねえねえお前らねえいですねえいねえいいですねあなたのパワーの源は行きますよあなたのパワーの源はあなたの身元気それはそれはそれはそれは渡らないんだよそれは前ってこれはそれは全然やってるから俺はないから俺はねえんやんかん俺はないそれは全然それは全然あるってそれは全然俺のカードが温まるって聞いてないね心が温まるかって聞いてねそれぞれ暖まらないそれこそロントランター寄りかってそれこそロントランキーがやっぱりスコットラメイんだよちょっと時間ねえんだよそれは子どもの笑いっても子供の笑顔が100人よりゃいよりしあったかさと言うたらそのロンティー1枚の笑顔よりあの自分の自分の笑顔してねあの自分の笑顔してますからねその子供の笑顔でしたねそういうことじゃないですかねいやりあるいろんないろんな彼女ってますね全然大切ですよ全部タイトルメイガオンしてますからねそいろんな面面白いじゃない一回笑顔の種類っていうのはたくさんあるとは思うんですけどもタイトルを一種類にしてるそれはやっぱり笑顔は共通でみんな笑顔でつながるもんなそういうメッセージが込められてるんですよねもう一回笑顔の種類っていうのは人それぞればそれはえっとえっとえっと言ってててといっつうて一日も誰だないがおしるっていうタイトルを一種類にしてるそれはまさにみんな一つの笑顔でつながろうそういう意味が込めるんですよねはいいところでしたはいいところですか?はいいところですよお前はねえますよ。大分ってくださいねえたらすこたらんどいってこたらいいところですよまあまあ夏いいですよ夏日はずばっと言わんな今日は本当にありがとうございましたおいしいすいパスボットなくせないねもうわっかりなくないんですか?もうわかったでしたありがとうございましたありがとうございましたお前はいいでしたお前ですか?大変ですねえわでしたお前はねえわでしたお前はいわねえわけなあらっすかってててしたら辺はすごい素敵ですよねやっぱ何が決定的に違いますかどういうこと?日本のこの住居とこのこっちの住居といいですよ何か何か言うてんやねん何か言ってないんけ何も言わないんとか言ってないんだんいって言えないんだけどマイクオンマンって言ってねえじゃあマイクオンマイクやないないやん

要約結果

## 【3行要約】
- スコットランドのエディンバラを拠点に活動するキッズスマイルフォトラファーについて話しました。
- 子どもの笑顔を撮る職業の魅力と、スコットランドで活動する理由について説明しました。
- 子どもの笑顔が仕事のやりがいであり、戦略的な意味合いもあると述べました。
## 【主要トピックス】
### キッズスマイルフォトラファーの職業
- 子どもの笑顔を中心に写真撮影を行う職業について説明しました。
- この職業は非常に特別で、子どもの笑顔を引き出すコツがあると述べました。
### スコットランドでの活動理由
- スコットランドで活動する理由は、ライバルが少ないため戦略的な意味合いがあると説明しました。
- 日本では競争が激しいため、スコットランドがより適しているという見解を示しました。
### 職業のやりがい
- 子どもの笑顔を撮ることが仕事の最大のやりがいであると述べました。
- その笑顔がフィルムやメモリーカードに収められる瞬間が特別なものであると強調しました。
## 【その他】
- 子どもの笑顔の種類は多岐にわたるが、共通の笑顔で人々がつながるメッセージが込められていると述べました。
- スコットランドの背景や風景が写真に加わることで、独自の魅力があると指摘しました。
- 日本とスコットランドの住居や文化の違いについても触れました。

所感

文字起こし

  • Whisperで同じ単語が繰り返し出力される問題をある程度抑えられている
  • いくつか繰り返し出力されている箇所もあるので、もう少し無音除去の精度を改善できそう

要約

  • フォトグラファーなのに子どもの笑顔に興味がないというネタに対して、子どもの笑顔を撮ることが仕事の最大のやりがいであると誤った解釈をしている
  • ネタを理解して要約させるのは難しそう(そんな機会はないと思いますが個人の興味で試しました)

3. 桜井政博のゲーム作るには 最終回スペシャル(46分13秒)

動画の選定理由

  • 音楽や効果音があっても正確に文字起こしできるか(無音除去・文字起こし)
  • 長時間の音声から重要な箇所を抜き出せるか(要約)

結果

動画時間 46分13秒
処理時間 37分44秒
(無音除去) (46秒)
(文字起こし) (36分45秒)
(要約) (13秒)
文字起こし結果

最後の動画始めます今までの配信より年を取ったのかそれもそうですこのチャンネルに受ける私の映像はもう2年半分前ですから今回このチャンネルのゲーム作るには最後の締めとして企画コンセプトのカテゴリーでこのチャンネルがいかに作られたのかをご紹介していこうと思いますこのチャンネルを作ったいったの2021年7月から改めて見ていただければ幸せまずは製作背景などを順番に語っていきますいわばさくらの中でいわばサクライナのチャンネルを作るにはどうぞファイターの方からその頃ソラーのスクラーの使い方をまとめていた頃ですもそらも正解中でしたそれはそれはそれはサラの方もらないこの企画についてはまだ言えなくて申し訳ないのですがもしちゃんと作れていればいずれ発表されることでしょうがもしちゃんと作れていればいずればそして2021年10月下旬にファイターのソラが配信され私の新作所、制作を進めるのですが間人のチームが集まるまでに時間がかるそうですめどは大室2022年4月これまで私は待つ必要だ私は今まで次から次へと仕事をしてきましたディレクターは最も長期にプロジェクトに携わりますだけど仕事ができながら次の仕事をするのがほとんどでしたからこれは奇跡的的にも次の仕事ができたわですね次の仕事が決まってる上で自身の準備もできていたけどだけどそっかくができていないという条件が揃わないとできませんこれはもう遊ぶしかないね世界の終旅行にでも行ってこようかなでもまあでもまあ福田市がいるのでダメですけど最近お出かけすると寝かるんですけどこれは最初で最後かもしれないチャンスが生まれたことを予この子の人生、何が起こるか分かりません私もいい年でそのうちそのうちに何かりませんかそうでなくても不幸を含めだからだから自分自身でゲームを作らなくてよいと考えました私は私が遊びたい手へ狙い背景はさらにいたのかしらに20年で現を作らせます私は自分自身でゲームを作らなくてよいと私は私が遊びたいゲームを作っているわけではありませんだからこそとそ人ゲームゲームなどに他の方が射手者向けのカービーを作ったり後にカズルゲームが苦手なのに私にことなるのは多くりえばゲーム作りを向いていました。と同じていました。私自身がゲームデザインやディレクションをすることは優先が低くゲーム業界全体を考えたかったですねだからプリーになった直後はクリーになった直後はコンサルティングのようなことをしていくくなら一本のゲームを見てくることがだかのチームや人や人の今後りどれだけは分かりませんゲーム学校の講師に呼ばれたことなどもこれは効率が良くなかったですが顔を割いて指揮を用意し会場に赴いても赤いてもその場限にしか届かないものですしねまた学生や聴衆が見て学ぶきがなければないですねまた多くの人が見たようなところはありますがゲームデギーマーも多いまそれぞれ大きなゲーム業界にって自分が貢献できるのはなりより多くの人に私が知り得るノウハウを伝えるための方法は何かそのことについてはずっと考えていました結果として誰もが自由にアクセスすることができ資料としても残っても残っていくチャンネルを作る動機に立ったわけです20年年の時にこれは割と大事ですアドリブで話を進めることも多分できますが話しているうちに何をしゃべっているのか分からなくなってしまうこともあるし話したい軸がずれることもあるでしょうか見て分かると思うんですが単に文章を読み上げていることもありましたがそれがよくないんですが単に文章を読み上げているわけではないのですけれども普段から私これが感情のつい話しだけを言い方ですそれが多くないんですけどそれが数百本並みですそれを数百本並べます次に書いたファミュースの思い出します1行で簡潔にこれがほぼ動画の題名になりますそれを数百本並べました次に見出しを簡単にカテゴライズを簡単にカティークライズしますここで仕事の姿勢をしカテゴリーの動画数が決まりますそして今回の見出しをして位置に対して現行を書いています以前ご紹介したアウトライン文書でしていますそして今回のこの話を除く最終話まで書き上げますつまり開始の時点で最初から最後まで動画数やの内容は決まっていたということですね始まりの時から終わりまで決め打ちだったなぜ最初から終わるという話ができていたのも今までの動画が2年間も前のものもものであるのもこれが理由です。初めての作作作品作品だと思いますゲーム制作に占める1日にの時間がそんなに多くないならあるいはゲームやチャンネルの制作規模が少ないのなら可能ですがそうではありませんでしたがそうではありません視聴者の規模で取り組むディレクターなら本来掛け持ち仕事でさえないということもコメントや反応を見て話題を用意したり機動修正したりすることはできないということはできないというですね不安要素は多いですが考え直せば説明られればできないこともないんじゃないかな考えています後から思い直せば言葉が足りなかったり誤解を受けるようなこともあるのですが後から思いなかったあとから思い直せば言葉が足りなかったり誤解を受けるようなこともあるのですが防衛線を張ることに力を入れすぎると短く短く短く要点をまとめることもできませんスパッと短くスピード重視あとはこれは不明かしなみに用意した話数は前に用意した場所は156話でしたちなみに用意した話数は全256話でしたなんてきりが良い美しいしかし途中でゲームセンターCXコラボが加わったため3話し上がった海外の方法には2枚になりましたこれは想定外今回の最終回りとめると全て番組は約30万文字です約3万文字でした日本語だから海外にかりは日本語だから海外の方にはイメージしにくいかもしれませんがカクティクスオーガリボーのテキスト量が大体同じくらいです量が多いと読み直すのも時間がかかりますね検索も回りませんね検索も最初に時間がかかりますねサライズも多いましてしまいましてカテゴライズも最初まってこのエクセルがそのまんまスケジュール進捗表になりましたで原稿がまとまったところで収録に進みます収録は私の別宅で行きで行いましたプレビューやエラーを確認できないまま同じリビングですこので本撮影スタッフもらずたった一人での収録活動だったのでフレビュー本編中にもあった目の前に釣られたコメティアジャンプの3本をもとにソラで収録と編集を行ってみましたトーク画面はもちろんゲーム画像などもも本番と同様に提唱してスマペンをもちろんもってましたがこのパイロット場をもってそしてこのパイロを持ってましたもってました私がチャンネル展開する以上をゲーム開発神に定食しますしスマブラスペシャルの開発バージョンの映像の使用局はすがに驚かれましたがまず撮影の話に戻りましたがまず撮影は雨が降っていない夜に限定されました日中に撮影は雨が降っていない夜に限定されました撮影の話に戻りますまず撮影は雨が降っていない夜に限定されました日中に撮影しようとすると暗いどん下りで日差しで日差しで何枠を与えて受けるため絵の仕上がり何しろ原稿が入るので一応かまとまで一番下がらせる日々何かか何か何十話かまとめて取っていき日をまたいで何かいで書いて書いて何しろ原稿を書いたときの単純で一日のカテゴリーですもちろんかけてしまうもちろん頼ってしまうで何日もかかってまずは1個頼のカテゴリーからもちろいわったられます終わったら次のカテゴリーももちろん簡単にすませられるようでは何日何度もかよい収録しましたかまには単行本やらティギュアやファミリーベリーやらの仕事やらの撮影機は顔なるコンパクトディカメラの今は目の前ですが愛病深らしの回で映像上ではいつもにも増しているように見えたかもしれませんが顔開ければ顔開ければこんな小分ければ音の収録はこんな小さいカメラに鋼いかけていろいろたのですが結果的にチョンマイクに一方正面を入れて全てかえなかったもありましたフォはこれは私のところだけではなく初っ腹から見えるトラブルですがこういったところもたった一人で試行錯誤またバイクや救急車が通るたび音が入ってしまうために撮影はストップではなくもはっとでもこれはコーナルだけではなくなるともはやくでもそうですよねこうアナログなんですよね毎回ヘトヘトになりながら収録を続けついに前話収録には前話収録には終わっているとなるともはややコンティスですからすでにやり遂げた感がありましたそして撮影が終わると撮影が終わるとつらくチャンネルが出ていますというわけで今回は別の場所からお届していますその後、バイクの音などが入ってそれは動画からつまりますからただただ話がつまっているだけの動画ができそこでそこで本編で書いたことを合わせ前編の原稿を合わせて前編の原稿をそして、その後から内容確認や字幕にも使われるのでアドリブや流れのことを合わせ話の内容に合わせたゲーム画面を取りだめていきます多くの動画に使われたスマブラスレムによる画面はもちろんもちろんもの画面はもちろん撮れませんそんな中でも例えばステージを作り見てみようの回ではモビー素材を取っていますボツにした分などを含めたられますかねそんな中でも例えばソニックの映像を使ったらセガさんの監修が必要でお手間を取らせてしまうので外すといった気遣いもしていますもちろんスマブラ以外のうちにも撮影をしていますがうちにはずっているゲームが多くていいもらうちにもうちにはずっているゲーム画面を変えていますが何度もらずそのカテゴライズは素材確認も含めた管理にも大きく役立っています番組の頭にある投資番号はそのままフォルダのカテゴライズになっておりそこまで最初から始められていることのメリットは大きいですね最初から始まるゲーム企画のチームが始動する前にここまで確実に終えていることが第一前提出です時期は年をまたいで2022年の2月の頭YouTube動画にするためには単にするためには単に私のトークがあるだけでは弱いし理解が済まないですよねゲームの映像はもちろんもちろんチョンを作りたいとロイクさんという会社に当時はニュービスとも作られていたのだとか過去にはニンテンド系ゲームのPVなども作りたいと私からメールを投げたところ本物の桜井さん本当に本当に本当に疑いの様子だと過去にない誇りだと過去にない試みですしそれはでもパイロット版を作っていただいたところ問題なく信頼をかける人は珍しいでしたこれはでもパイロット版を見せつつって本当にやりたいと思いましたこちらでもパイロット版を作っていただいたところ問題なく進行できそうな印象でしたが契約し実製作にかかりそうでしたがその編集構成についてはこの編集構成についてはこのチャンネルをご覧の通りですがその意図りつつまた手をかけていると思いますこれは絶対コリーにある自分のジェスチャーは連続撮影中の私が適当に手遊びしたものですがその糸を組み取りつつ毎回面白い絵を当て込んでいるのはそこにいろんな素材を当てがって上書きするように編集していただきますのでゲームの映像はもともともとの射具を決まっているのはそれからそこにゲームの映像は事前に私が用意したものがあるけれどそれだけだと足りない場合がありますチャンネル内には昔に撮影した割には新しめのタイトルが入っている場合があったと思いますがそれは改めて撮影しているものそれは改めて撮影しているものにはそれは改めて楽な仕事のように思えるのはそれでも大変でしょ量がありますまた動画のサムネール制作もハイクさんの担当です音楽や交換はハイクさんが契約して使える範囲の手材がオープニングのジングルはコシル人のジングルは小四郎さんにこのチャンネルに作っていただきましたここは知めたかったので完璧に合うものにさせていただきました日本では人はおまかせで進めています素材を撮るときは可能であれば日本語版のみしか手元にないものが多いためただけどもとは日本語のみしか手元にないものが多いものが多いためだけどせっかく作るならそっかく作るならばより多くの人側でゲーム映像ごと用意してくだと思います私としては当ちゃくてはしかし本もともと日本のみで進められればよいかなと考えていましたけどもせっかく作るならより多くの人ができる方が良いのは間違いないですね英語版の視聴数は日本より少なめです英語版のコメントを読むと言うのはもう少し多くの人に届くとよいなとは思うの英語版の視聴数は日本より少なめです英語版のコメントを読むと言うと言うと言うとそうこうしてある程度の作り倒に対して公開の準備を生まれることもいよいよです。もちろいろの元元公は私が用意します。もちろしてある程度の作りだめをしていよいよですそして2022年8月24日当時年8月24日当チャクライマサヒルのゲーム作りにはその前日までスイッターで今日の一枚を展開していたので覚悟なバトンタッチでサービス開始です当時は現役ゲームディレクターがこの規模の番組みを開始する基本的には私の1日のスケジュールを出してすぐにゲーム制作チーム当ての日報などを書きます場合によっては前日に入って朝食を取り調整を取りしたことをしてから本的には本的にはゲームディレクション業務がメインですがとにも及ぶ業務が目ですが時にも及ぶ要するにやつぎ早にチェックしていくとに中はチャンネルのことをできる余裕などなくゲーム制作に専念しています本的な時間で済めば18時半に終了しない次の仕事があることもあり長く残業しないようにしていますが今週の仕事を取りばれます今週と交渉ですね更新がある日は通常仕事からすぐに更新仕事が始まるのであわたたちに落ち着いたのもこれが原因です海外の方には半端な公開時間になってしまったかもしれませんが公衛の方針があります会議員するためには公式するためには公開的な作業が必要なのもいますスイッターに対するためにはではそしてほぼ毎日出来上がってきた動画の監修業務があります俳句さんから動画やサムネーレルのチェックが入るのでこれを監修していきますその日に普通の動画を平行で作っていますからその日に来てもあるいった監修はその日に監修を入れたものについてはその日のうちに来せませんかの日に来てます最初はメールが23時頃に入ってきてて寝る時間が取れずに偉い目に遭ってきたこともあったんですねそこから慣らないのでので20時までにチェックを入れてもらうことをルーカしていかなければなりませんカムネールも大手に合わない場合やすい場合やサムネースに合わない場合わないチェックした映像内に新しいゲーム映像が必要と判断した場合撮影機器を引っ張り出して引っ張り出して映っていますが基本的には映像シャンか私が全部新規撮影していますがスマブラススペシャルの画面はスマブラースタートが全部収機撮影しています。大抵の場合簡単な撮影でも何度も収録するものですまたも原稿機では撮る方法や環境がなくて例に出せない場合例えば伝説の1916年の回でPCゲームが少ないのはそのもっと取り上げたかったけれどそれとは別にそれとは別に最初の間にリリースされたものなどもありますがしかし、現行自体は昔に書いたものだから、場合によっては映りを差し替えなければならないことがあります。どうしても違和感が抜けないので、なかなかにやるなければなかなりやないので、なかなかにやれないです。動画の監修はないので、なかなり多くなりが出る。どうしても違和感がないので、これに加えて会社としての空の仕事をして一時の仕事が終了余った時間があれば余った時間があればゲームなり部をして入れをして入れようなここに着くのは深夜1時から2時の間です遅刻は少し時間程度ですねですねこうして毎日の生活を送っていたのですが日の間収量によって秘速正しい生活は少し送りにくいところがありました更新がある日は出かけられないし監修などの仕事があると夜に使える時間が減るため運動量をゲームできる時間もなどに使える時間もなお一本の回し当初は中回ペースで行っていましたが相当に厳しかったので週2回に起こしましたも動画1本は一口サイズを心がえていますがやっぱり手場も時間もかかるんですねこの製作環境は非常に厳しく思うこともありました本業だけでいっぱいの家での輩会活動はなくなくなくなくなっても2年以上最初の成長からだともしか分かりませんそれだけがどのような仕事られ方がてない仕事務だと思いですでもこれは解説の本数字とは全く関係ないものを思ったよりも落胆しますねその人にとって手にも伝わらなかったということですでもこれは広くものを届けられた証しなのでしょうがでもこれはでもなものを届しているといえばがもそうですがもちろいものはその他にテクニックを駆使している人もいるも多分その他様なメーカーや作り手から参考にしているとの話を直接聞くこともありました賞をいただくこともありました日本版、海外版社のセレクアワードでは最優秀賞のなんとにかんことはそして何より大事ですがここは表には出てこないですねここは唯一具体的に結果が出るところですから支えになりましたこのチャンネルを押してくださった方々どうもありがとうございましたせっかく作ったチャンネルなどでせっかく作ったチャンネルなどでゲームプロダクトではこういうのにかけたとなりです。 製作の背景はどうかっているのかってても多いったのかどうだったのか?これも制作話の一種などで多くの人が気にかかるであろう製作費について打ち明けてしまいますがこのチャンネルにかかった費用は約9000万円ギリギリギリ1億円を超えていかなかったようですがかなりの海外の方には多りはかなりのかりはですが多くのかりませんが多くのかりました公開時期がもし少し遅れていたら1億円を超えていった可能性もありますね打ち分けはこのような感じはうくが編集のための費用ですねつまりハイクさんへの支払いです当やとうってこういうことなのですよね撮影は先方の方で最も時間がかかるとそのほかの部分で20万円ぐらいゲームセンターCXのコラボは3本で約150万円程度かかっています撮影は先方のスタッフがしてくれたのですが普通の編集本役のほかしスタジオ2人プレイオのゲーム層など赤を言えばもっと見ている動画も少なくはないですんよくを言えばもっとうえます。んよくを言わないですこれにも結構なものができるかというと普通に考えると全然足りないです何よりこのチャンネルのコストには原作品を持つ人と出演・監修をしてもらう必要がありますからこれらも委託するとなると製作品が払う私う私よねこれらも委託するとなどの課題な仕事をしてもらうがありますからこれらも委託するとなると単にお金を出すだけではなく頼めるかどうかも頼むかも多くては中年のタネル化をしていませんから自身の金であるノハウを流出させ続け事前に準備やゲーム政策ともそらは厳しい割りにもって自然に準備やゲーム政策と事前に準備やゲーム制作と並走する厳しい割にリターンにもないとやはりバカだと思いますがこれは今どきの一本のゲームを少しでも良くするための投資だと考えいや重ねが数字は相手はないの金負であることが前提ですが例えば私がディレクターをしていたとして今どきの一本のゲームのチームで作り1億円って世に出すの重ねがさね答えは出ませんが今後のゲーム業界に出てはおそらく良くの技能界に出ています多くのゲーム作品が出ていますここで今度もわずかにでも当たりのソファクトを尾上げをしようとる頃みでしたが今後のゲーム最後にこの番組に携わった方々にも感想などをいただこうともともとこのチャンネルは効果も成果も分からない今後のゲームが僕は良くなるための活動であり見返りは期待していませんがやってよかったと後から続いているようになればいいなと思いますつまり先頃解説したような方針の日々を追っています番組を終えるのかまだ分かれませんがやってよかったと後から思えるようになればいいなと思っています私自身は思っているのが下さいまでなかったのはYouTubeは思っているの下に下がらないモリアでないローハーを残せたのはよかったのだろうYouTubeは思っているのはよかったのだろうとりあえずチャンネル登録はしてなければしてそのままにしておいてもらえれば幸せにしておいてもらえですこのチャンネルはいつでもアクセスできるための手引きとしてプレイヤーにはよりゲームを深く知るためのとして聴者の方法として広く収書には今度は視聴者の方々の経験はあると思うとしてティーマに貸しなければないもの視聴者の方が活用して初めて意味をなしそれが唯一の成果ですこれからの更新はここで終わりなくはないのですがここで何らかの話ができることはないのですが何が分かりませんからこれまで何らかの話ができることも将来的にあるかもしれませんこれまで何らかの中で番組も順を追って整えますので気が向いたら見直してやってください何か得られるかもしれませんしね作り手も遊び手も皆様が理解を深めよりよくゲームにあるいは仕事に向け合えることを祈っております今までご視聴どうもありがとうございました

要約結果

## 【3行要約】
- このチャンネルは、ゲームディレクターの経験を基に、ゲーム制作の背景やコンセプトを紹介するために作られた。
- チャンネルの制作には約9000万円の費用がかかり、多くの時間と労力が費やされた。
- チャンネルは、ゲーム業界への貢献と、視聴者がゲームを深く理解するための手引きとして作られた。
## 【主要トピックス】
### チャンネルの制作背景
- チャンネルは2021年7月から始まり、ゲームディレクターの経験と知識を基に作られた。
- 制作の動機は、ゲーム業界全体に貢献し、多くの人にノウハウを伝えるため。
### 制作プロセス
- 原稿の作成から収録、編集までの一連のプロセスが詳細に説明されている。
- 動画の数は初期に256話用意され、後にゲームセンターCXコラボなどで増加した。
- 撮影は個人で行われ、多くのトラブルや挑戦があった。
### 費用とリターン
- チャンネルの制作費用は約9000万円で、編集や撮影などの費用が含まれる。
- リターンは金銭的なものではなく、ゲーム業界への貢献と視聴者の理解深化が目標。
### 将来的な展望
- チャンネルは今後も更新される可能性があり、視聴者の理解深化を目指している。
- ゲーム作り手や遊び手がより良いゲーム体験を得るための手引きとして機能することを希望。
## 【その他】
<ゲームディレクションとチャンネルのバランス>:
- ゲームディレクターとしての仕事とチャンネルの更新をバランスさせることが難しかった。
- 更新がある日は出かけられない、夜に使える時間が減るなど。
<収録環境>:
- 個人での収録で、雨が降っていない夜に限定されていた。
- 小さなカメラを使用し、音質の問題や外部ノイズが発生した。
<編集と監修>:
- 動画の編集と監修はハイクさんや他のスタッフが担当。
- ゲーム映像の使用やサムネイル制作も含まれる。
<国際的な対応>:
- 英語版の視聴数は日本より少ないが、多くの人に届けるために英語版も作成。
- 国際的な対応は重要と考えられている。

所感

文字起こし

  • BGMや効果音が使われているが誤字脱字は少なく、数値もそこそこ正しい印象
  • 無音除去が正しくできていない影響か、同じ単語の繰り返しは少し多い

要約

  • 要点をしっかり抑えられている
  • 文字起こしの表記ミスを補って、正しい表記に修正できている

おわりに

Silero-VAD,Whisper,Perplexity APIを使った、音声要約システムの紹介でした。

文字起こしだけでは表記ミスがほぼ必ず発生するので、今回のように生成AIとセットで使うのがオススメです。

今後の各技術の進化に期待したいですね。

拙い部分もあったと思いますが、読んでいただいてありがとうございました!

他のインティメート・マージャーの記事もぜひどうぞ!

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?