本記事はlifehackにより翻訳されたものです。
グーグルのAIの最新バージョン、Gemini 1.5 Proがユーザーの声を聞くことができるようになりました。
Geminiは、以前はBardと呼ばれていたGoogleのリブランディングされたボットであり、Gemini 1.5 Proは、今年の2月に限られた開発者に利用可能になったモデルの最新のイテレーションである。Gemini 1.5 Proは、テキスト、コード、ビデオ、そして(現在では)アップロードされたオーディオストリームを処理する能力を持っていて、聞き取り、分析、対応する書き起こしのない情報を抽出することができます。
実際、音声ファイルのサポートは、ユーザーがGemini 1.5 Proを使用して、決算説明会から情報を収集したり、録音されたインタビューを書き起こしたり、音声付きビデオを分析したりできることを意味します。このAIは、1時間のビデオ、11時間のオーディオ、30,000行のコード、または700,000以上の単語を含むプロンプトを1つのストリームで処理することができます。
グーグルはまた、Vertex AIにアクセスできる人向けにGemini 1.5 Proをパブリックプレビューとして公開していますが、パブリックベータテストはまだ予定されていません。今のところ、ほとんどのユーザーはGeminiチャットボットを通じてグーグルのAIと関わっています。
以上、グーグルのGemini 1.5 Proに耳が付いたという情報について紹介しました。ほかのAI製品に関心を持つ方に、AIをベースに人物写真をAI 似顔絵への変換を実現できるToongineerや、ぼやけた画像をくっきりさせるAI搭載のサイトーーVanceAI画像鮮明化を試すのをおすすめします。