LoginSignup
7
1

[Oracle Cloud]OCI AI Service触ってみた [Speech/Language/Generative AI (Beta)] (2023/12/12)

Posted at

こちらの記事は Oracle Cloud Infrastructure Advent Calendar 2023 Day 12 の記事として書かれています。Day 11の記事は kazunishi さんの記事「【OCI クラウド移行ガイド】AWS SQSをOCI Queueで実装してみた_キューサービス編」でした。

はじめに

OCI AIサービスは、アプリケーションにすぐ組み込み可能な、学習済みのモデルを提供しています。
今回は、AIサービスの中でメディアファイルを読取り可能なテキストに変換するSpeech(音声)サービスとテキスト翻訳をするLanguage(言語)サービス、そして、ベータとして提供されているGenerative AIサービスを使ってみました。
現在(2023/12/12)Speechサービス、Generative AIサービスは、日本語対応していません。

OCI Webコンソールでの操作で英語音声ファイルを文字起こしし、要約し、要約結果を日本語翻訳しました。
image.png

OCI Speech

SpeechサービスはObject Storage内の音声ファイルをインプットに、文字起こしした結果をJSONファイル、SRT(字幕)ファイルとして出力します。

OCI Webコンソールメニューから「アナリティクスとAI」を選択し、「AIサービス」内の「音声」をクリックします。
image.png
「記録ジョブの作成」をクリック
image.png
「記録ジョブの作成」画面で、ジョブ名、音声ファイルが格納されているObject Storageバケット、ファイルを出力するObject Storageバケットを指定します。
オプションとして、SRTファイル出力の有無、句読点の有無、話者ダイアライゼーション(話者の人数)を指定します。
image.png
image.png
image.png
「次」へをクリック
音声ファイルを選択し「送信」をクリックします。
image.png
完了した「記録ジョブ」の詳細を確認
image.png
タスク名をクリックし、「記録タスク詳細」ページで文字起こし結果を確認します。
image.png
(文字起こし結果をコピー)

(オプション)OCI Generative AI (Beta)

OCI Generative AI(Beta)は、生成・要約・埋込み(Embedding)のモデルが提供されています。
今回は、要約モデルを使って、文字起こし結果を要約してみます。
OCI Webコンソールメニューから「アナリティクスとAI」を選択し、「AIサービス」内の「生成AI」をクリックします。
image.png
「プレイグラウンドに移動」をクリック
image.png
モデルから要約の下の「cohere command」を選択します。
image.png
オプションとしてパラメータを指定できます。

  • 長さ (要約の長さ)

    • 短:最大2文
    • 中:3~5文の間
    • 長:6つ以上の文
    • 自動:入力サイズに基づいて、モデルが長さを選択
  • 形式 (生成される要約の形式)

    • 自動
    • 段落
    • 箇条書き
  • 抽出度 (要約内で入力をどの程度再利用するか。高い:再利用する傾向、低い:言い換える傾向)

    • 自動
  • 温度:出力テキストをどの程度ランダムに生成するか。同じ出力を生成するには0を使用します。

  • 追加コマンド:スタイルやフォーカスなど

image.png

「入力」領域に要約したい文書を入力(コピーした文字起こし結果を貼り付け)し、「要約」をクリックします。
image.png
「出力のコピー」をクリックしコピーします。

OCI Language

要約結果を翻訳します。
OCI Webコンソールメニューから「アナリティクスとAI」を選択し、「AIサービス」内の「言語」をクリックします。
image.png
「翻訳の開始」をクリックします。
image.png
「ターゲット言語」から「日本語」を選択。
左側のテキストボックスに翻訳する文章(要約結果)を貼り付け、「翻訳」をクリックします。
image.png
翻訳結果を確認します。
image.png

おわりに

OCI AIサービスは、学習済みモデルを使うことで専門知識なしに様々な機能を利用できます。
音声・生成AI・言語の各サービスを組み合わせて使うことで、簡単に英語音声を要約し日本語化できました。

補足情報

各サービスの制限

  • Speech (音声)サービス

    • 対象音声ファイルの最大ファイル・サイズは2GBです。
    • ファイル期間は最大4時間です。
    • 対象メディア形式
      AAC
      AC3
      AMR
      AU
      FLAC
      M4A
      MKV
      MP3
      MP4
      OGA
      OGG
      WAV
      WEBM
    • 必要なポリシー
      • manage ai-service-speech-family
      • manage object-family
  • Language (言語)サービス

    • Webコンソールでのテキスト翻訳の対象は5000文字まで
    • 必要なポリシー
      • manage ai-service-language-family
  • Generative AI (Beta)サービス

    • 要約
      • トークン制限 - 4096

参考情報

7
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
1