機械学習
DeepLearning
AI
GoogleSpeechAPI
GoogleCloudVisionAPI

「AIメーカー」で画像・音声・動画ファイル、YouTube、録音から文字起こしを行う議事録AIを作ってみた


こんにちは、2z(Twitter: @2zn01 )です。

誰でも気軽にAIを使える&作れる!みんなのAIプラットフォーム「AIメーカー」を開発しています!

■AIメーカー
https://aimaker.io/

「AIメーカー」は画像認識の機能を先月(2018/7/16)にリリースしました!

僕が「AIメーカー」を開発して目指している今後の構想を含めて、詳しくは以下の記事にまとめましたので、ぜひご覧ください!

今回作ったもの

今回は世の中の面倒な作業として上位にランクインするはずの文字起こしに挑戦し、「AIメーカー」の機能としてリリースしました!
文字起こしは大きく以下の3つの方法から行えます。

  1. 📺 YouTubeの動画から文字起こし
  2. 🔗 画像、音声、動画のファイルから文字起こし
  3. 🎙️ PCやスマホのマイクから音声を録音して文字起こし

画面/利用イメージ

全体

aimaker_recognize_text.png

画像・音声・動画ファイルから文字起こし

aimaker_recognize_text_by_file.png

文字起こししたい画像、音声、動画ファイルをドラッグ&ドロップしてアップロードして頂くと、アップロードしたファイルから文字起こしを行います。
画像の場合は画像内に含まれる文字を抽出し、動画の場合は動画内の音声を抽出して文字起こしします。

以下の拡張子のファイルに対応しており、10MB以内で(音声、動画の場合は)5分以内であれば、1日1回まで文字起こしをお試し頂けます。

  • 画像ファイル:JPEG/PNG/GIF
  • 音声ファイル:WAV/MP3/WMA/AAC/M4A/FLAC/OGG
  • 動画ファイル:P4/AVI/FLV/MOV/WMV

YouTubeから文字起こし

aimaker_recognize_text_by_youtube.png

文字起こししたいYouTube動画のURLを指定すると、YouTubeの動画をダウンロードした上で動画内の音声を抽出して、文字起こしを行います。
5分以内であれば、1日1回まで文字起こしをお試し頂けます。

録音から文字起こし

aimaker_recognize_text_by_recording.png

PCやスマホのマイクから音声を録音して、文字起こしを行います。
5分以内であれば、1日1回まで文字起こしをお試し頂けます。

文字起こしデータの出力

aimaker_recognize_text_output.png

文字起こししたデータは以下の方法にて一括で出力可能です。

  • コピー
  • CSV
  • Excel
  • PDF
  • 印刷

文字起こしの仕組み

画像ファイルから文字起こし

  • Google Compute Engine(サーバ)
  • Google Cloud Storage(ストレージ)
  • Google Cloud Vision API(画像認識)

aimaker_recognize_system_by_image.png

  • Google Compute Engine上に立ち上げたサーバからアップロードされた画像ファイルをGoogle Cloud Storage(GCS)上へアップした上で、Google Cloud Vision APIにGCS上の画像URIを送信し、文字起こしされた結果を受け取っています。

音声ファイルから文字起こし

  • Google Compute Engine(サーバ)
  • Google Cloud Storage(ストレージ)
  • Google Cloud Speech API(Speech-to-Text/音声認識)

aimaker_recognize_system_by_sound.png

  • Google Compute Engine上に立ち上げたサーバからアップロードされた音声ファイルをGoogle Cloud Storage(GCS)上へアップした上で、Google Cloud Speech APIにGCS上の音声URIを送信し、文字起こしされた結果を受け取っています。

動画ファイルから文字起こし

  • Google Compute Engine(サーバ)
  • Google Cloud Storage(ストレージ)
  • Google Cloud Speech API(Speech-to-Text/音声認識)
  • ffmpeg(動画→音声の変換)

aimaker_recognize_system_by_video.png

  • Google Compute Engine上に立ち上げたサーバからアップロードされた動画ファイルをffmpegを使って音声ファイルへ変換し、Google Cloud Storage(GCS)上へアップした上で、Google Cloud Speech APIにGCS上の音声URIを送信し、文字起こしされた結果を受け取っています。

YouTubeから文字起こし

  • Google Compute Engine(サーバ)
  • Google Cloud Storage(ストレージ)
  • Google Cloud Speech API(Speech-to-Text/音声認識)
  • ffmpeg(動画→音声の変換)

aimaker_recognize_system_by_youtube.png

  • Google Compute Engine上に立ち上げたサーバで指定されたYouTubeの動画をダウンロードしてffmpegを使って音声ファイルへ変換し、Google Cloud Storage(GCS)上へアップした上で、Google Cloud Speech APIにGCS上の音声URIを送信し、文字起こしされた結果を受け取っています。

録音から文字起こし

  • Google Compute Engine(サーバ)
  • Google Cloud Storage(ストレージ)
  • Google Cloud Speech API(Speech-to-Text/音声認識)
  • HTML5 Web Audio API getUserMedia(PC/スマホのマイクから録音)

aimaker_recognize_system_by_recording.png

  • HTML5のWeb Audio API getUserMediaを使ってPC/スマホのマイクから録音をしつつ、定期的に音声ファイルとしてアップロード
  • Google Compute Engine上に立ち上げたサーバからアップロードされた音声ファイルをGoogle Cloud Storage(GCS)上へアップした上で、Google Cloud Speech APIにGCS上の音声URIを送信し、文字起こしされた結果を受け取っています。

HTML5のWeb Audio API getUserMediaはiOS11から使用できるようになりました!
なので、iPhoneでiOSが最新のバージョンであれば、スマホで録音からの文字起こしが可能です。

作った過程など

残念ながら現時点では日本語ではまだ高精度なvideoモデルは使えませんでしたが、
今後、日本語でも高精度なvideoモデルが使えるようになることに期待ですね!!

最後に

まずはぜひAIメーカーを使って、AIで使い倒してみてください!

■AIメーカー
https://aimaker.io/

AIの可能性を機械学習に携わっている一部のエンジニアの人だけでなく、みんなでAIをさわってみることからはじめましょう!
そのためのツールとして、とりあえず「AIメーカー」を使って遊んでみてほしいです。

もっとみんながAIを気軽にさわれるようにすることで、こんなことに使えるんじゃないかと新たなアイディアが生まれることを期待しています。
あなたのちょっとしたアイディアが世界を変えるかもしれません!

ただ、「AIメーカー」はまだまだ構想の一部しかできていないので、僕も頑張ってこれからもっと機能を追加していきたいと思っています。
「みんなのAIプラットフォーム」となれることを目指します!

AIメーカーに少しでも興味をもって頂けましたら、ぜひフォローやいいね、リツイートで応援お願いします!

・文字起こし
・画像認識