今年の Google I/O 2024 も良かったですね。特に基調講演で話があった「Gemini の時代」、あらゆる入力をあらゆる出力にできるということで、Googleに関わるすべてのサービスにGeminiが連携されるようになりました。
その中でも YouTube との連携もあり、ついに動画から要約だけを出力できるようにもなったらしいので、せっかくなので利用してみたいと思います。
今回利用する動画は Google I/O 2024 の基調講演
https://www.youtube.com/watch?v=XEzRZ35urlk
Youtubeの機能で、この動画は日本語の字幕をつけることもできますが、動画前編は 1h52m と長丁場、せっかくなので要約してみましょう
1. 準備
今回は「Gemini 1.5 Pro」を利用、これは無料でさわれるモデルとなっています。
Gemini を開き、拡張機能 から YouTube が有効になっているか確認してください。
2. もちろん日本語は使えません
一応日本語でも Gemini は利用できますが、まだ使えない機能はいくつかあります。イメージの出力もそうですが、この動画の要約も同様に同じです。
実際のプロンプトはこちらで見られます
https://g.co/gemini/share/585f113ef76d
3. まずは英語で「要約して」
https://www.youtube.com/watch?v=XEzRZ35urlk summarize this video.
すると英語で要約が書かれます!
全文はこちら
This video is about Google I/O '24 keynote presentation.
The speaker, Sundar Pichai, talks about the latest advancements in Google's AI technology, particularly a large language model called Gemini. Here are the key points:
- Google has been investing in AI for more than a decade and is now in the early days of the AI platform shift. (1:02)
- Gemini is a multimodal foundation model that can reason across text, images, video, code and more. (1:04)
- Gemini 1.5 Pro is the latest version with a 1 million token context window, which allows it to process massive amounts of information. (1:13)
- Gemini is being used to improve Google Search in a number of ways, including generating AI overviews that answer complex questions and summarizing search results. (1:15)
- LaMDA (Language Model for Dialogue Applications) is another AI model from Google that is being used to create more interactive learning experiences, such as answering questions about educational videos. (1:39)
- Google is committed to making AI helpful for everyone and is working with educators and institutions to develop new AI tools for learning. (1:43)
- Google Cloud TPU (Tensor Processing Unit) is a custom-designed machine learning accelerator that is being used to train and run Gemini and other AI models. (1:47)
- The 6th generation TPU, called Trillium, is being announced and will be available to Google Cloud customers in late 2024. (1:48)
全文はこちらのプロンプトでも見られます
https://g.co/gemini/share/e1c88fe138cd
4. 試しに「要約を日本語で」と聞いてみると...
https://www.youtube.com/watch?v=XEzRZ35urlk summarize it and translate it into Japanese
翻訳されない...軽く調べてみると翻訳されるもの・されないものがあるらしいが決めてはわかりませんでした..
全文はこちらのプロンプトでも見られます
https://g.co/gemini/share/67534307292f
5. 気を取り直してGeminiの要約を、Geminiに翻訳してもらう
This video is about Google I/O '24 keynote presentation.
The speaker, Sundar Pichai, talks about the latest advancements in Google's AI technology, particularly a large language model called Gemini. Here are the key points:
:
すると日本語で要約が書かれます!
全文はこちら
この動画は、Google I/O '24 の基調講演です。
スピーカーのスンダール・ピチャイ氏は、Google の AI 技術の最新進歩、特にジェミニと呼ばれる巨大言語モデルについて語っています。
主なポイントは以下の通りです。
- Google は 10 年以上にわたって AI に投資しており、現在は AI プラットフォームの変革の初期段階にあります。 (1:02)
- ジェミニは、テキスト、画像、動画、コードなど、さまざまな情報を理解して推論できるマルチモーダルな基盤モデルです。 (1:04)
- ジェミニ 1.5 Pro は、最新のバージョンで、100 万トークンのコンテキストウィンドウを持ち、大量の情報処理を可能にします。 (1:13)
- ジェミニは、複雑な質問に答える AI による概要の生成や検索結果の要約など、さまざまな方法で Google 検索の向上に役立てられています。 (1:15)
- LaMDA (Language Model for Dialogue Applications) は、Google が開発したもう一つの AI モデルで、教育ビデオに関する質問に答えるなど、よりインタラクティブな学習体験を作るために使用されています。 (1:39)
- Google は、AI を誰もが使えるようにすることを目指しており、教育者や機関と協力して、学習のための新しい AI ツールを開発しています。 (1:43)
- Google Cloud TPU (Tensor Processing Unit) は、ジェミニやその他の AI モデルの訓練と実行に使用される、カスタム設計の機械学習アクセラレータです。 (1:47)
- 第 6 世代 TPU である Trillium が発表され、2024 年後半に Google Cloud のお客様が利用できるようになります。 (1:48)
全文はこちらのプロンプトでも見られます
https://g.co/gemini/share/3e3da5ec63d5
6. 内容を確認
ぱっと見だとハルシネーションはなさそうですが、なんか内容が薄いですね...
動画の冒頭の数分が濃縮されている感じで、聞き方が悪かったのか、長編動画はこれが仕様なのかどうかはわかりませんが現状だと物足りない感じ
または「Gemini Advanced」を利用すれば 1.5 Pro も長文(最大100万トークン(約1500ページ)のテキスト)を使えるので、Advanced だと結果が変わるかもしれません(だれか試した人おしえてくださいm(_ _)m
まだまだベータ機能だとは思うのですが、しかし思えば便利な機能ですね
今後も積極的に使っていきたいです