[Oracle Cloud]OCI AI Service触ってみた [Speech/Language/Generative AI (Beta)] (2023/12/12)

Posted at 2023-12-11

こちらの記事は Oracle Cloud Infrastructure Advent Calendar 2023 Day 12 の記事として書かれています。Day 11の記事は kazunishi さんの記事「【OCI クラウド移行ガイド】AWS SQSをOCI Queueで実装してみた_キューサービス編」でした。

はじめに

OCI AIサービスは、アプリケーションにすぐ組み込み可能な、学習済みのモデルを提供しています。
今回は、AIサービスの中でメディアファイルを読取り可能なテキストに変換するSpeech（音声）サービスとテキスト翻訳をするLanguage（言語）サービス、そして、ベータとして提供されているGenerative AIサービスを使ってみました。
現在(2023/12/12)Speechサービス、Generative AIサービスは、日本語対応していません。

OCI Webコンソールでの操作で英語音声ファイルを文字起こしし、要約し、要約結果を日本語翻訳しました。

OCI Speech

SpeechサービスはObject Storage内の音声ファイルをインプットに、文字起こしした結果をJSONファイル、SRT（字幕）ファイルとして出力します。

OCI Webコンソールメニューから「アナリティクスとAI」を選択し、「AIサービス」内の「音声」をクリックします。

「記録ジョブの作成」をクリック

「記録ジョブの作成」画面で、ジョブ名、音声ファイルが格納されているObject Storageバケット、ファイルを出力するObject Storageバケットを指定します。
オプションとして、SRTファイル出力の有無、句読点の有無、話者ダイアライゼーション(話者の人数)を指定します。

「次」へをクリック
音声ファイルを選択し「送信」をクリックします。

完了した「記録ジョブ」の詳細を確認

タスク名をクリックし、「記録タスク詳細」ページで文字起こし結果を確認します。

（文字起こし結果をコピー）

（オプション）OCI Generative AI (Beta)

OCI Generative AI（Beta）は、生成・要約・埋込み(Embedding)のモデルが提供されています。
今回は、要約モデルを使って、文字起こし結果を要約してみます。
OCI Webコンソールメニューから「アナリティクスとAI」を選択し、「AIサービス」内の「生成AI」をクリックします。

「プレイグラウンドに移動」をクリック

モデルから要約の下の「cohere command」を選択します。

オプションとしてパラメータを指定できます。

長さ（要約の長さ）
- 短：最大２文
- 中：３～５文の間
- 長：６つ以上の文
- 自動：入力サイズに基づいて、モデルが長さを選択
形式（生成される要約の形式）
- 自動
- 段落
- 箇条書き
抽出度（要約内で入力をどの程度再利用するか。高い：再利用する傾向、低い：言い換える傾向）
- 自動
- 高
- 中
- 低
温度：出力テキストをどの程度ランダムに生成するか。同じ出力を生成するには０を使用します。
追加コマンド：スタイルやフォーカスなど

「入力」領域に要約したい文書を入力（コピーした文字起こし結果を貼り付け）し、「要約」をクリックします。

「出力のコピー」をクリックしコピーします。

OCI Language

要約結果を翻訳します。
OCI Webコンソールメニューから「アナリティクスとAI」を選択し、「AIサービス」内の「言語」をクリックします。

「翻訳の開始」をクリックします。

「ターゲット言語」から「日本語」を選択。
左側のテキストボックスに翻訳する文章（要約結果）を貼り付け、「翻訳」をクリックします。

翻訳結果を確認します。

おわりに

OCI AIサービスは、学習済みモデルを使うことで専門知識なしに様々な機能を利用できます。
音声・生成AI・言語の各サービスを組み合わせて使うことで、簡単に英語音声を要約し日本語化できました。

補足情報

各サービスの制限

Speech （音声）サービス
- 対象音声ファイルの最大ファイル・サイズは2GBです。
- ファイル期間は最大4時間です。
- 対象メディア形式
  AAC
  AC3
  AMR
  AU
  FLAC
  M4A
  MKV
  MP3
  MP4
  OGA
  OGG
  WAV
  WEBM
- 必要なポリシー
  - manage ai-service-speech-family
  - manage object-family
Language （言語）サービス
- Webコンソールでのテキスト翻訳の対象は5000文字まで
- 必要なポリシー
  - manage ai-service-language-family
Generative AI (Beta)サービス
- 要約
  - トークン制限 - 4096

参考情報

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up