はじめに
2024/09現在、Vertex AI StudioでGeminiが利用できるようになっています。
本記事ではGoogleの生成AI「Gemini」を使ってその使用感について説明します。
想定読者
生成AIの名前は知っているけど、実態はよく分からないという方向けにGoogle Cloudの生成AIを例にして生成AIを使うとこんなことができるよ、を説明します。
「生成AIって何ができるの?」「マルチモーダルって何?」って方も一読すれば、何となく生成AIが分かった気分になると思います。
Vertex AI Studio
まず、Vertex AIとは予測 AI と生成 AI の両方の機能を備えた包括的な機械学習(ML)開発プラットフォームのことです。予測を目的とする予測 ML モデルをトレーニング、評価、デプロイすることができます。また、このプラットフォームを使用して、生成 AI モデルの検出、チューニング、サービングを行ってコンテンツを生成することもできます。
そして、今回利用するVertex AI Studioは生成 AI モデルを迅速にテストおよびカスタマイズし、モデルの機能をアプリケーションで利用することができます。UI(ユーザー インターフェース)とコーディング例の両方を含むさまざまなツールとリソースが用意されているため、MLに関する知識や経験がなくても生成 AI を簡単に使い始めることができます。
Vertex AI Studioの使い方
- Google Cloudコンソールにログインし、画面上部の検索欄に「Vertex AI」と入力してVertex AIの画面を開く
Vertex AIを初めて開いた方は画面中央付近に「すべての推奨APIを有効化」のボタンがあるので押下してください。 - 左のペインから「Vertex AI Studio > 概要」を選択
下図のような画面となります。
本記事ではマルチモーダルを利用しますが、Vertex AI Studioを使うと他にも画像生成や音声合成をすることもできます。
- 「Geminiを試す」を押下する
Vertex AI Studioのプロンプト画面は下図となります。(2024/08/20現在)
中央付近のPromptと記載してある入力欄にテキストやメディアを挿入してGeminiにレスポンスさせます。
現在利用できるメディアのソース元としては下記の4パターンがあります。
- ローカルからアップロード(7MB以下)
- Cloud Storageからインポート
- Googleドライブからインポート
- Youtube動画からインポート(自分が所有している動画出ないとできない)
ローカルからアップロードができるので、つまりほとんどの方法でGeminiにメディアをインプットさせることができます。
また、右のペインにあるモデルからGemini-1.5-proなど他の生成AI基盤モデルを利用することもできます。
マルチモーダルとはテキストだけでなく、動画や画像、音声データなど異なるデータを処理できる性能のことを指し、マルチモーダルなGeminiは実質的にあらゆる入力に対応しています。
試したこと
テキストベースでGeminiとやりとり
個人的なことで恐縮ですが、アイドルグループの「嵐」が好きなのでGeminiがその存在を知っているか聞いてみました。
詳細な出力結果は以下の通りです。
ちょっとツッコミどころがありますが、概ね合致しているのでかなりの精度でレスポンスしていることが分かります。
嵐についてですね!詳しくお答えします。
嵐は、日本の男性アイドルグループです。2020年12月31日に活動休止しました。
メンバー:
大野智 (Ohno Satoshi):リーダー、ボーカル、ダンス
櫻井翔 (Sakurai Sho):メインボーカル、MC
相葉雅紀 (Aiba Masaki):ボーカル、バラエティ担当
二宮和也 (Ninomiya Kazunari):メインボーカル、演技派
松本潤 (Matsumoto Jun):ダンス、演技派
特徴
高い歌唱力とダンススキル: メンバー全員が優れた歌唱力とダンススキルを持ち合わせています。特に、大野智のダンスは、キレのある動きと表現力で高く評価されています。
バラエティ番組での活躍: メンバーそれぞれがバラエティ番組で活躍しており、その明るいキャラクターとトークスキルで人気を集めています。
楽曲の多様性: アップテンポなダンスナンバーから、バラード、ロック、R&Bなど、幅広いジャンルの楽曲を歌っています。
圧倒的な人気: 長年の活動を通じて、日本国内外で幅広い世代から愛される国民的なアイドルグループとなりました。
活動
音楽活動: CDリリース、ライブツアー、音楽番組出演など。
テレビ番組: メンバーそれぞれがレギュラー出演しているバラエティ番組やドラマがあります。
CM: 多くの企業のCMに出演しています。
舞台: 大野智は舞台役者としても活躍しています。
映画: メンバーそれぞれが映画に出演しています。
解散
嵐は2020年12月31日に、グループ活動を休止しました。
嵐の魅力
嵐の魅力は、メンバーそれぞれが個性的でありながらも、グループとして一体感があるところです。彼らの歌声、ダンス、トーク、そしてパフォーマンスは、多くのファンを魅了し続けてきました。
関連情報
公式サイト: https://www.jstorm.co.jp/s/jsm/page/arashi
Wikipedia: https://ja.wikipedia.org/wiki/%E5%A4%A9%E9%A2%A8_(%E3%82%B0%E3%83%AB%E3%83%BC%E3%83%97)
嵐は、日本の音楽史に大きな足跡を残したグループです。彼らの音楽やパフォーマンスは、これからも多くの人々に愛され続けるでしょう。
画像を入力(マルチモーダル)
続いて、テキスト以外のものをインプットにしてマルチモーダルを体験します。
以下のリンクから「嵐」の画像をダウンロードし、ローカルからアップロードします。
そして、テキストとしては「画像に写っているのは誰ですか」とし、嵐をGeminiが認識できるか試してみます。
下図がその結果です。
おしい、、
右のペインにあるTemperature(※)を変更して何度か試してみましたが、「Hey! Say! JUMP」や「NEWS」など同じ事務所のグループまででピンポイントでは当たりませんでした。
ノーヒントでは答えにたどり着きませんでしたが、「この画像のアイドルが音楽番組で"A・RA・SHI"を歌っていました」などの補足を入れると答えが出ることもあります。
しかし、画像から「日本人」「アイドル」というところを特定できているのは「さすがGemini」だと思いました。これくらいの認知度であれば、普通の人よりも識別能力に長けているのではないかと驚くばかりです。
※Temperature:0~2の間で指定できるパラメータ、0にすると一貫性のある出力(同じインプットには同じアウトプット)、2にするとばらつきのある出力(同じインプットでも異なるアウトプット)となる
参考:
https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/text?hl=ja
さいごに
いかがだったでしょうか。
最近の生成AIは進化が目まぐるしく、人に聞くより生成AIに聞いた方が速くかつ的確な解答を得られる未来もそう近くないかもしれません。
他でも生成AIを使った記事を作成予定ですので、ぜひそちらも見て頂ければと思います。