More than 1 year has passed since last update.

生成AIのハードルを下げたい！Advent Calendar 2023

@Isaka-code(ねぼすけAI)

Bardを用いて動画の要約をする実験のレポート

Last updated at 2023-12-09Posted at 2023-12-09

1. はじめに (Introduction)

先月、BardがYouTube動画の要約に対応したとニュースになっていました。本記事では、記事の内容を参考に、Bardを用いて動画の要約をする追実験を行います。

目的

下記の記事で、生成AIを活用した勉強方法について紹介しました。

生成AI（Bard）により動画の要約を行い、2023年12月現在の動画要約のクオリティ、手触り感を紹介することを本記事の目的とします。

2023年11月26日に実験を行っています。
生成AIは確率的な挙動をするため、結果を保証するものではないことをご留意ください。

2. 方法 (Methods)

動画4種類、プロンプト2種類を組み合わせ、合計8パターンで試します。

データセット

対象の動画は下記の4種類を用います。

動画1（日本語・2h・英語字幕なし）

動画2（日本語・1h・英語字幕なし）

動画3（英語・45m・英語字幕あり）

動画4（英語・14m・英語字幕あり）

プロンプト

Bardに動画の要約をお願いするプロンプトは下記の2種類を用います。

プロンプト1（日本語）

下記の動画の要約をお願いします。
＜URL＞

プロンプト2（英語）

Please summarize the video below.
＜URL＞

3. 結果と考察 (Results and Discussion)

結果

結果①：動画1（日本語・2h・英語字幕なし）, プロンプト1（日本語）

動画「絶対に理解させる双子のパラドックス【相対性理論】」では、特殊相対性理論における「双子のパラドックス」について解説されています。

双子のパラドックスとは、光速に近い速度で宇宙旅行をした双子が、地球に残った双子よりも年齢が若くなるというパラドックスです。

動画では、このパラドックスを理解するために、以下の3つのポイントを解説しています。

1. 時間は、観測者の動きによって変化する。
2. 光速に近い速度で動く物体は、長さが収縮する。
3. 光速に近い速度で動く物体は、時計の進みが遅くなる。

これらのポイントを踏まえて、動画では以下のストーリーでパラドックスを説明しています。

ある双子（兄）が、光速に近い速度で宇宙旅行に出かけ、地球に残った双子（弟）と再会する。すると、弟は兄よりも年齢が若くなっているという。

このストーリーでは、兄は光速に近い速度で動いているため、時間の進みが遅くなり、弟よりも若くなるという説明がされています。

また、動画では、双子のパラドックスを数式を用いて証明する方法も解説されています。

この動画は、双子のパラドックスをわかりやすく理解するための解説動画です。特殊相対性理論に興味がある方や、双子のパラドックスについて詳しく知りたい方におすすめの動画です。

以下に、動画の要約をまとめます。

* 時間は、観測者の動きによって変化する。
* 光速に近い速度で動く物体は、長さが収縮する。
* 光速に近い速度で動く物体は、時計の進みが遅くなる。

これらのポイントを踏まえると、双子のパラドックスは以下のようになる。

* 光速に近い速度で動く物体は、時間の進みが遅くなる。
* 双子の兄は光速に近い速度で宇宙旅行に出かけるため、時間の進みが遅くなり、弟よりも若くなる。

このように、双子のパラドックスは、特殊相対性理論における時間の遅れによって説明できる。

タイトルが間違っています。Bardに渡した動画ではなく、関連動画絶対に理解させる双子のパラドックス【相対性理論】」では、特殊相対性理論における「双子のパラドックス」についてのものと思しき要約が出力されています。

結果②：動画1（日本語・2h・英語字幕なし）, プロンプト2（英語）

I'm sorry, but I'm unable to access this YouTube content. This is possible for a number of reasons, but the most common are: the content isn't a valid YouTube link, potentially unsafe content, or the content does not have a captions file that I can read.

日本語の動画に英語のプロンプトで要約をお願いした場合は、要約が出力されませんでした。

結果③：動画2（日本語・1h・英語字幕なし）, プロンプト1（日本語）

動画のタイトルは「【2023年最新版】AIとロボット・テクノロジーの未来は？【AIの可能性と課題】」です。

動画の概要は、以下のとおりです。

* 近年、AIやロボット技術の進歩が著しい。
* AIは、画像認識や自然言語処理などの分野で、人間の能力を超える成果を上げている。
* ロボットも、自動運転や介護などの分野で実用化が進んでいる。

動画では、AIやロボット技術が私たちの生活や社会にどのような影響を与えるのかについて、解説しています。

具体的には、以下の点について触れています。

* AIやロボット技術の進歩によって、私たちの生活はより便利で豊かになる。
* 一方で、AIやロボット技術によって、失業や社会格差などの問題が生じる可能性もある。

動画の最後には、AIやロボット技術の未来について、以下のような展望を述べています。

* AIやロボット技術は、私たちの生活や社会を大きく変える可能性を秘めている。
* AIやロボット技術を、人類の幸福のために活用していくことが重要である。

動画は、AIやロボット技術の最新動向と、その可能性と課題について、わかりやすく解説しています。AIやロボット技術に興味のある方は、ぜひ視聴してみてください。

タイトルおよび要約が明らかに間違っています。

結果④：動画2（日本語・1h・英語字幕なし）, プロンプト2（英語）

I'm sorry, but I'm unable to access this YouTube content. This is possible for a number of reasons, but the most common are: the content isn't a valid YouTube link, potentially unsafe content, or the content does not have a captions file that I can read.

日本語の動画に英語のプロンプトで要約をお願いした場合は、要約が出力されませんでした。

結果⑤：動画3（英語・45m・英語字幕あり）, プロンプト1（日本語）

この動画は、OpenAIのCEOであるSam Altman氏が、同社の開発者向けイベント「OpenAI DevDay」の基調講演で行ったプレゼンテーションです。

Altman氏は冒頭で、OpenAIのこれまでの成果と、今後の目標について語りました。同社は、GPT-3やDactylなどの強力なAIモデルを開発してきました。今後は、これらのモデルをさらに使いやすく、安全に、そして倫理的に利用できるようにすることを目指しています。

また、Altman氏は、OpenAIが取り組んでいる新しい技術について紹介しました。その一つが、コード解釈機能です。この機能により、AIは、テキストで記述されたコードを理解し、実行することができます。これにより、AIは、プログラミングの知識がなくても、複雑なタスクを実行できるようになります。

さらに、Altman氏は、OpenAIが取り組んでいる新しい研究プロジェクトについても紹介しました。その一つが、強化学習によるロボットの自律化です。このプロジェクトでは、ロボットに、自らの行動から学び、環境を探索する能力を身につけさせることを目指しています。

最後に、Altman氏は、OpenAIのビジョンについて語りました。同社は、AIが人類に利益をもたらすように、AIを安全に、倫理的に開発することに取り組んでいます。

動画の要約は、以下のとおりです。

* OpenAIは、GPT-3やDactylなどの強力なAIモデルを開発してきた。
* OpenAIは、AIをさらに使いやすく、安全に、そして倫理的に利用できるようにすることを目指している。
* OpenAIは、コード解釈機能や強化学習によるロボットの自律化など、新しい技術に取り組んでいる。
* OpenAIは、AIが人類に利益をもたらすように、AIを安全に、倫理的に開発することに取り組んでいる。

それっぽい要約ですが、間違いが多く含まれます。

結果⑥：動画3（英語・45m・英語字幕あり）, プロンプト2（英語）

The video is about OpenAI Dev Day, an event where OpenAI announced new products and features for its AI platform. The speaker, Sam Altman, discussed the company's progress over the past year and its plans for the future.

Here are some of the key takeaways from the video:

* OpenAI is committed to making its AI platform more accessible and affordable.
* The company is developing new tools and features to make it easier for developers to build AI-powered applications.
* OpenAI is working to make its AI models more accurate and reliable.
* The company is committed to using AI to benefit humanity.

Here are some specific announcements that were made at the event:

* The launch of GPT-4 Turbo, a new AI model that is more powerful and versatile than its predecessor.
* The launch of the Assistance API, a new tool that makes it easier for developers to build AI-powered assistants.
* The launch of Custom GPTs, a new feature that allows developers to create their own AI models tailored to specific tasks.
* The launch of a new partnership with Microsoft to make OpenAI's technology more widely available.

Overall, the video is a positive and optimistic look at the future of AI. OpenAI is clearly making significant progress in developing AI technology that can be used to solve real-world problems.
http://googleusercontent.com/youtube_content/1

それっぽい要約です。

結果⑦：動画4（英語・14m・英語字幕あり）, プロンプト1（日本語）

動画「Inside the mind of a master procrastinator」は、TEDスピーカーのティム・アーバン氏が、自身の経験と研究をもとに、プロ級の遅延症候群の人の脳内を解説したものです。

アーバン氏によると、遅延症候群の人の脳には、2つの部分があります。1つは、現実的な課題を認識し、それに取り組むべきだと判断する「理性的な意思決定者」。もう1つは、即時の快楽を求める「即座の満足を与える猿」です。

「理性的な意思決定者」は、課題に取り組むことが重要だと認識していますが、「即座の満足を与える猿」が、その誘惑に勝てず、課題を先延ばしにしてしまうのです。

アーバン氏は、遅延症候群を克服するためには、以下の2つの方法が有効だと述べています。

1つは、課題を「小さな、達成可能なステップ」に分解することです。大きな課題は、目の前に迫ると恐怖を感じてしまい、先延ばしにしやすくなります。しかし、小さなステップに分解することで、課題をより身近に感じ、取り組みやすくなります。

もう1つは、「期限を設定すること」です。期限がないと、いつまでも先延ばしにしてしまう可能性があります。そのため、期限を明確に設定することで、モチベーションを高め、課題に取り組むことができます。

アーバン氏は、自身も遅延症候群の克服に苦労してきた経験を語っています。しかし、上記の方法を実践することで、遅延症候群を克服し、TEDスピーカーになることができました。

動画の最後に、アーバン氏は、遅延症候群を抱えている人は、一人ではないと述べています。また、遅延症候群を克服することは可能であり、そのためには、自分自身と向き合い、努力することが大切だと語っています。

それっぽい要約です。

結果⑧：動画4（英語・14m・英語字幕あり）, プロンプト2（英語）

動画「Inside the mind of a master procrastinator」は、著者・ブロガーのティム・アーバン氏によるTEDトークです。アーバン氏は自身もプロ級の「先延ばし癖」を持っており、その体験をもとに、先延ばし癖の心理メカニズムを解説しています。

アーバン氏によると、先延ばし癖のある人の脳には、2つの意思決定システムが存在します。1つは、理性的な判断を行う「理性的な意思決定者」です。理性的な意思決定者は、先延ばしをすることのリスクとデメリットを理解しており、早めに作業に取り掛かるべきだと判断します。

もう1つは、即時の快楽を求める「即時的報酬を求めるサル」です。即時的報酬を求めるサルは、作業をすればするほど得られる報酬が先延ばしされるため、作業を開始することを嫌います。

アーバン氏は、この2つの意思決定システムが先延ばし癖を生み出すと説明しています。理性的な意思決定者は、早めに作業に取り掛かるべきだと判断しますが、即時的報酬を求めるサルがその判断を邪魔し、作業を先延ばしにさせます。

アーバン氏は、先延ばし癖を克服するためには、即時的報酬を求めるサルを抑制することが重要だと述べています。具体的には、以下の方法が挙げられます。

* 作業を小さな単位に分割する
* 作業の開始時間を決める
* 作業の進捗状況を可視化する

アーバン氏は、これらの方法を駆使することで、先延ばし癖を克服し、人生をより充実したものにすることができると語っています。

動画では、アーバン氏が自身の大学時代の経験を交えながら、先延ばし癖の心理メカニズムを分かりやすく解説しています。先延ばし癖に悩んでいる人は、ぜひ一度視聴してみることをおすすめします。

それっぽい要約です。

考察

Bardは要約の材料として、「タイトル」「字幕」「ネット検索結果」を用いているのでは無いかと考えました。そう考察した理由としては、結果①で当該動画に関連する動画の要約を返すハルシネーションが確認されたり、ネット検索でヒットしやすい動画であるほど要約がリッチになっているためです。
また、要約のスピードがとても速いことから、動画データそのものを読み込んで分析している訳では無いと考えます。

4. 結論 (Conclusion)

現時点ではExperiment段階ということもあり、ハルシネーションが多く含まれます。BardをYouTubeの要約に使うのはまだ控えたほうが良いかもしれません。

参考までに、ハルシネーションのリーダーボードを下記に示します。
※Bardは、同社の大規模言語モデル（LLM）である「PaLM 2」を搭載しています

それでも動画の要約をしたい場合

動画の要約の代替案としては、動画の字幕をハルシネーション確率が低いLLMに要約させる方法が丸そうです。

例えば、下記の拡張機能を用いると字幕から要約を行うことができます。

本記事は以上です。現時点ではBardの動画要約はあまり精度が高くありませんが、GoogleのサービスであるBardとYouTubeの親和性は高そうなので、今後の発展に期待したいと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up