More than 5 years have passed since last update.

「AIメーカー」で画像・音声・動画ファイル、YouTube、録音から文字起こしを行う議事録AIを作ってみた

Last updated at 2018-08-18Posted at 2018-08-18

みんな～！「AIメーカー」で文字起こし機能をリリースしたよー！
以下の方法で簡単に文字起こしを試せるので、ぜひ使ってみて～！！
📺YouTubeから文字起こし
🔗画像、音声、動画から文字起こし
🎙️録音で文字起こし

AIをうまく使って少しでも面倒な作業から解放だぁ～！https://t.co/qo13Wo6Yli pic.twitter.com/gsRigVROnK
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月18日

こんにちは、2z（Twitter： @2zn01 ）です。

誰でも気軽にAIを使える＆作れる！みんなのAIプラットフォーム「AIメーカー」を開発しています！

■AIメーカー
https://aimaker.io/

「AIメーカー」は画像認識の機能を先月（2018/7/16）にリリースしました！

僕が「AIメーカー」を開発して目指している今後の構想を含めて、詳しくは以下の記事にまとめましたので、ぜひご覧ください！

AIメーカーでオープンイノベーションを！！
みんなのAIプラットフォームとして自分の考えている構想、実現したいことをまとめましたので、ぜひご覧ください！
（あと、1いいねで600いいね😀）
on @Qiita https://t.co/73fNAWyBtz #AIメーカー
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月11日

今回作ったもの

今回は世の中の面倒な作業として上位にランクインするはずの文字起こしに挑戦し、「AIメーカー」の機能としてリリースしました！
文字起こしは大きく以下の３つの方法から行えます。

📺 YouTubeの動画から文字起こし
🔗 画像、音声、動画のファイルから文字起こし
🎙️ PCやスマホのマイクから音声を録音して文字起こし

みんな～！「AIメーカー」で文字起こし機能をリリースしたよー！
以下の方法で簡単に文字起こしを試せるので、ぜひ使ってみて～！！
📺YouTubeから文字起こし
🔗画像、音声、動画から文字起こし
🎙️録音で文字起こし

AIをうまく使って少しでも面倒な作業から解放だぁ～！https://t.co/qo13Wo6Yli pic.twitter.com/gsRigVROnK
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月18日

画面／利用イメージ

全体

画像・音声・動画ファイルから文字起こし

文字起こししたい画像、音声、動画ファイルをドラッグ＆ドロップしてアップロードして頂くと、アップロードしたファイルから文字起こしを行います。
画像の場合は画像内に含まれる文字を抽出し、動画の場合は動画内の音声を抽出して文字起こしします。

以下の拡張子のファイルに対応しており、10MB以内で（音声、動画の場合は）5分以内であれば、1日1回まで文字起こしをお試し頂けます。

画像ファイル：JPEG／PNG／GIF
音声ファイル：WAV／MP3／WMA／AAC／M4A／FLAC／OGG
動画ファイル：P4／AVI／FLV／MOV／WMV

YouTubeから文字起こし

文字起こししたいYouTube動画のURLを指定すると、YouTubeの動画をダウンロードした上で動画内の音声を抽出して、文字起こしを行います。
5分以内であれば、1日1回まで文字起こしをお試し頂けます。

録音から文字起こし

PCやスマホのマイクから音声を録音して、文字起こしを行います。
5分以内であれば、1日1回まで文字起こしをお試し頂けます。

文字起こしデータの出力

文字起こししたデータは以下の方法にて一括で出力可能です。

コピー
CSV
Excel
PDF
印刷

文字起こしの仕組み

画像ファイルから文字起こし

Google Compute Engine（サーバ）
Google Cloud Storage（ストレージ）
Google Cloud Vision API（画像認識）

Google Compute Engine上に立ち上げたサーバからアップロードされた画像ファイルをGoogle Cloud Storage（GCS）上へアップした上で、Google Cloud Vision APIにGCS上の画像URIを送信し、文字起こしされた結果を受け取っています。

音声ファイルから文字起こし

Google Compute Engine（サーバ）
Google Cloud Storage（ストレージ）
Google Cloud Speech API（Speech-to-Text／音声認識）

Google Compute Engine上に立ち上げたサーバからアップロードされた音声ファイルをGoogle Cloud Storage（GCS）上へアップした上で、Google Cloud Speech APIにGCS上の音声URIを送信し、文字起こしされた結果を受け取っています。

動画ファイルから文字起こし

Google Compute Engine（サーバ）
Google Cloud Storage（ストレージ）
Google Cloud Speech API（Speech-to-Text／音声認識）
ffmpeg（動画→音声の変換）

Google Compute Engine上に立ち上げたサーバからアップロードされた動画ファイルをffmpegを使って音声ファイルへ変換し、Google Cloud Storage（GCS）上へアップした上で、Google Cloud Speech APIにGCS上の音声URIを送信し、文字起こしされた結果を受け取っています。

YouTubeから文字起こし

Google Compute Engine（サーバ）
Google Cloud Storage（ストレージ）
Google Cloud Speech API（Speech-to-Text／音声認識）
ffmpeg（動画→音声の変換）

Google Compute Engine上に立ち上げたサーバで指定されたYouTubeの動画をダウンロードしてffmpegを使って音声ファイルへ変換し、Google Cloud Storage（GCS）上へアップした上で、Google Cloud Speech APIにGCS上の音声URIを送信し、文字起こしされた結果を受け取っています。

録音から文字起こし

Google Compute Engine（サーバ）
Google Cloud Storage（ストレージ）
Google Cloud Speech API（Speech-to-Text／音声認識）
HTML5 Web Audio API getUserMedia（PC／スマホのマイクから録音）

HTML5のWeb Audio API getUserMediaを使ってPC／スマホのマイクから録音をしつつ、定期的に音声ファイルとしてアップロード
Google Compute Engine上に立ち上げたサーバからアップロードされた音声ファイルをGoogle Cloud Storage（GCS）上へアップした上で、Google Cloud Speech APIにGCS上の音声URIを送信し、文字起こしされた結果を受け取っています。

HTML5のWeb Audio API getUserMediaはiOS11から使用できるようになりました！
なので、iPhoneでiOSが最新のバージョンであれば、スマホで録音からの文字起こしが可能です。

作った過程など

【AIメーカーに文字起こし機能を実装するぞ！】#応援して #褒めて #やるぞ宣言
 https://t.co/h3gcOZR5st
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月12日

AIメーカーで文字起こしの機能を実装中！
議事録AIを目指して、録音による文字起こしも実装してますが、地味に面倒くさいぞ。
あともう一歩というところなので、近々リリースできると思います！たぶん#AIメーカー pic.twitter.com/yiNjCgWvjE
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月5日

ちなみに、今回の「AIメーカー」の文字起こし機能のリリースですが、
お恥ずかしながら、文字起こし君を開発されたDai(@never_be_a_pm)さんよりご助言頂いたGoogle Cloud Vision APIのDOCUMENT_TEXT_DETECTIONをちゃんと使っております！！ので、それなりに精度も良いはず！https://t.co/U7gClRxqm6
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月18日

音声からの文字起こしは、Google Cloud Speech-to-Textの変換精度が向上したみたいなので試してみるhttps://t.co/iZECMAGVd9
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月14日

Google Cloud Speech-to-Textのプレミアムなvideoモデルはまだ日本語サポートされてなかった😇😇😇 https://t.co/6pV012q3Pd
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月14日

こればっかりはしょうがないので、ベータ版（v1p1beta1）のdefaultモデルで文字起こし精度が改善されるか確認中🥺
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月14日

Google Cloud Speech-to-Textのdefaultモデルの場合は全然精度変わらんかったわ🙄
videoモデルの日本語サポートが入るのを待つしかないなぁ🥴
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月14日

残念ながら現時点では日本語ではまだ高精度なvideoモデルは使えませんでしたが、
今後、日本語でも高精度なvideoモデルが使えるようになることに期待ですね！！

最後に

まずはぜひAIメーカーを使って、AIで使い倒してみてください！

■AIメーカー
https://aimaker.io/

AIの可能性を機械学習に携わっている一部のエンジニアの人だけでなく、みんなでAIをさわってみることからはじめましょう！
そのためのツールとして、とりあえず「AIメーカー」を使って遊んでみてほしいです。

もっとみんながAIを気軽にさわれるようにすることで、こんなことに使えるんじゃないかと新たなアイディアが生まれることを期待しています。
あなたのちょっとしたアイディアが世界を変えるかもしれません！

ただ、「AIメーカー」はまだまだ構想の一部しかできていないので、僕も頑張ってこれからもっと機能を追加していきたいと思っています。
「みんなのAIプラットフォーム」となれることを目指します！

AIメーカーでオープンイノベーションを！！
みんなのAIプラットフォームとして自分の考えている構想、実現したいことをまとめましたので、ぜひご覧ください！
（あと、1いいねで600いいね😀）
on @Qiita https://t.co/73fNAWyBtz #AIメーカー
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月11日

AIメーカーに少しでも興味をもって頂けましたら、ぜひフォローやいいね、リツイートで応援お願いします！

Twitter： @2zn01
note： @2zn01

・文字起こし

みんな～！「AIメーカー」で文字起こし機能をリリースしたよー！
以下の方法で簡単に文字起こしを試せるので、ぜひ使ってみて～！！
📺YouTubeから文字起こし
🔗画像、音声、動画から文字起こし
🎙️録音で文字起こし

AIをうまく使って少しでも面倒な作業から解放だぁ～！https://t.co/qo13Wo6Yli pic.twitter.com/gsRigVROnK
— 2z＠みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月18日

・画像認識

今話題のAIをweb上で誰でも気軽に作れる「AIメーカー」を開発しました！
①AIに覚えさせたいタグを入力
②タグから自動で画像データを収集
③AIがデータから学習
の３ステップで誰でも簡単にAIを作れます！
動画では手相占いのAIに挑戦！
みんなもAIを作って遊んでみてね！https://t.co/66DFU7GRZ2 pic.twitter.com/ie1LmioyA1
— 2z＠AIメーカー (@2zn01) 2018年7月19日

172

170

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up