みんな~!「AIメーカー」で文字起こし機能をリリースしたよー!
— 2z@みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月18日
以下の方法で簡単に文字起こしを試せるので、ぜひ使ってみて~!!
📺YouTubeから文字起こし
🔗画像、音声、動画から文字起こし
🎙️録音で文字起こし
AIをうまく使って少しでも面倒な作業から解放だぁ~!https://t.co/qo13Wo6Yli pic.twitter.com/gsRigVROnK
こんにちは、2z(Twitter: @2zn01 )です。
誰でも気軽にAIを使える&作れる!みんなのAIプラットフォーム「AIメーカー」を開発しています!
■AIメーカー
https://aimaker.io/
「AIメーカー」は画像認識の機能を先月(2018/7/16)にリリースしました!
僕が「AIメーカー」を開発して目指している今後の構想を含めて、詳しくは以下の記事にまとめましたので、ぜひご覧ください!
AIメーカーでオープンイノベーションを!!
— 2z@みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月11日
みんなのAIプラットフォームとして自分の考えている構想、実現したいことをまとめましたので、ぜひご覧ください!
(あと、1いいねで600いいね😀)
on @Qiita https://t.co/73fNAWyBtz#AIメーカー
今回作ったもの
今回は世の中の面倒な作業として上位にランクインするはずの文字起こしに挑戦し、「AIメーカー」の機能としてリリースしました!
文字起こしは大きく以下の3つの方法から行えます。
- 📺 YouTubeの動画から文字起こし
- 🔗 画像、音声、動画のファイルから文字起こし
- 🎙️ PCやスマホのマイクから音声を録音して文字起こし
みんな~!「AIメーカー」で文字起こし機能をリリースしたよー!
— 2z@みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月18日
以下の方法で簡単に文字起こしを試せるので、ぜひ使ってみて~!!
📺YouTubeから文字起こし
🔗画像、音声、動画から文字起こし
🎙️録音で文字起こし
AIをうまく使って少しでも面倒な作業から解放だぁ~!https://t.co/qo13Wo6Yli pic.twitter.com/gsRigVROnK
画面/利用イメージ
全体
画像・音声・動画ファイルから文字起こし
文字起こししたい画像、音声、動画ファイルをドラッグ&ドロップしてアップロードして頂くと、アップロードしたファイルから文字起こしを行います。
画像の場合は画像内に含まれる文字を抽出し、動画の場合は動画内の音声を抽出して文字起こしします。
以下の拡張子のファイルに対応しており、10MB以内で(音声、動画の場合は)5分以内であれば、1日1回まで文字起こしをお試し頂けます。
- 画像ファイル:JPEG/PNG/GIF
- 音声ファイル:WAV/MP3/WMA/AAC/M4A/FLAC/OGG
- 動画ファイル:P4/AVI/FLV/MOV/WMV
YouTubeから文字起こし
文字起こししたいYouTube動画のURLを指定すると、YouTubeの動画をダウンロードした上で動画内の音声を抽出して、文字起こしを行います。
5分以内であれば、1日1回まで文字起こしをお試し頂けます。
録音から文字起こし
PCやスマホのマイクから音声を録音して、文字起こしを行います。
5分以内であれば、1日1回まで文字起こしをお試し頂けます。
文字起こしデータの出力
文字起こししたデータは以下の方法にて一括で出力可能です。
- コピー
- CSV
- Excel
- 印刷
文字起こしの仕組み
画像ファイルから文字起こし
- Google Compute Engine(サーバ)
- Google Cloud Storage(ストレージ)
- Google Cloud Vision API(画像認識)
- Google Compute Engine上に立ち上げたサーバからアップロードされた画像ファイルをGoogle Cloud Storage(GCS)上へアップした上で、Google Cloud Vision APIにGCS上の画像URIを送信し、文字起こしされた結果を受け取っています。
音声ファイルから文字起こし
- Google Compute Engine(サーバ)
- Google Cloud Storage(ストレージ)
- Google Cloud Speech API(Speech-to-Text/音声認識)
- Google Compute Engine上に立ち上げたサーバからアップロードされた音声ファイルをGoogle Cloud Storage(GCS)上へアップした上で、Google Cloud Speech APIにGCS上の音声URIを送信し、文字起こしされた結果を受け取っています。
動画ファイルから文字起こし
- Google Compute Engine(サーバ)
- Google Cloud Storage(ストレージ)
- Google Cloud Speech API(Speech-to-Text/音声認識)
- ffmpeg(動画→音声の変換)
- Google Compute Engine上に立ち上げたサーバからアップロードされた動画ファイルをffmpegを使って音声ファイルへ変換し、Google Cloud Storage(GCS)上へアップした上で、Google Cloud Speech APIにGCS上の音声URIを送信し、文字起こしされた結果を受け取っています。
YouTubeから文字起こし
- Google Compute Engine(サーバ)
- Google Cloud Storage(ストレージ)
- Google Cloud Speech API(Speech-to-Text/音声認識)
- ffmpeg(動画→音声の変換)
- Google Compute Engine上に立ち上げたサーバで指定されたYouTubeの動画をダウンロードしてffmpegを使って音声ファイルへ変換し、Google Cloud Storage(GCS)上へアップした上で、Google Cloud Speech APIにGCS上の音声URIを送信し、文字起こしされた結果を受け取っています。
録音から文字起こし
- Google Compute Engine(サーバ)
- Google Cloud Storage(ストレージ)
- Google Cloud Speech API(Speech-to-Text/音声認識)
- HTML5 Web Audio API getUserMedia(PC/スマホのマイクから録音)
- HTML5のWeb Audio API getUserMediaを使ってPC/スマホのマイクから録音をしつつ、定期的に音声ファイルとしてアップロード
- Google Compute Engine上に立ち上げたサーバからアップロードされた音声ファイルをGoogle Cloud Storage(GCS)上へアップした上で、Google Cloud Speech APIにGCS上の音声URIを送信し、文字起こしされた結果を受け取っています。
HTML5のWeb Audio API getUserMediaはiOS11から使用できるようになりました!
なので、iPhoneでiOSが最新のバージョンであれば、スマホで録音からの文字起こしが可能です。
作った過程など
【AIメーカーに文字起こし機能を実装するぞ!】#応援して #褒めて #やるぞ宣言
— 2z@みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月12日
https://t.co/h3gcOZR5st
AIメーカーで文字起こしの機能を実装中!
— 2z@みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月5日
議事録AIを目指して、録音による文字起こしも実装してますが、地味に面倒くさいぞ。
あともう一歩というところなので、近々リリースできると思います!たぶん#AIメーカー pic.twitter.com/yiNjCgWvjE
ちなみに、今回の「AIメーカー」の文字起こし機能のリリースですが、
— 2z@みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月18日
お恥ずかしながら、文字起こし君を開発されたDai(@never_be_a_pm)さんよりご助言頂いたGoogle Cloud Vision APIのDOCUMENT_TEXT_DETECTIONをちゃんと使っております!!ので、それなりに精度も良いはず!https://t.co/U7gClRxqm6
音声からの文字起こしは、Google Cloud Speech-to-Textの変換精度が向上したみたいなので試してみるhttps://t.co/iZECMAGVd9
— 2z@みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月14日
Google Cloud Speech-to-Textのプレミアムなvideoモデルはまだ日本語サポートされてなかった😇😇😇 https://t.co/6pV012q3Pd
— 2z@みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月14日
こればっかりはしょうがないので、ベータ版(v1p1beta1)のdefaultモデルで文字起こし精度が改善されるか確認中🥺
— 2z@みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月14日
Google Cloud Speech-to-Textのdefaultモデルの場合は全然精度変わらんかったわ🙄
— 2z@みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月14日
videoモデルの日本語サポートが入るのを待つしかないなぁ🥴
残念ながら現時点では日本語ではまだ高精度なvideoモデルは使えませんでしたが、
今後、日本語でも高精度なvideoモデルが使えるようになることに期待ですね!!
最後に
まずはぜひAIメーカーを使って、AIで使い倒してみてください!
■AIメーカー
https://aimaker.io/
AIの可能性を機械学習に携わっている一部のエンジニアの人だけでなく、みんなでAIをさわってみることからはじめましょう!
そのためのツールとして、とりあえず「AIメーカー」を使って遊んでみてほしいです。
もっとみんながAIを気軽にさわれるようにすることで、こんなことに使えるんじゃないかと新たなアイディアが生まれることを期待しています。
あなたのちょっとしたアイディアが世界を変えるかもしれません!
ただ、「AIメーカー」はまだまだ構想の一部しかできていないので、僕も頑張ってこれからもっと機能を追加していきたいと思っています。
「みんなのAIプラットフォーム」となれることを目指します!
AIメーカーでオープンイノベーションを!!
— 2z@みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月11日
みんなのAIプラットフォームとして自分の考えている構想、実現したいことをまとめましたので、ぜひご覧ください!
(あと、1いいねで600いいね😀)
on @Qiita https://t.co/73fNAWyBtz#AIメーカー
AIメーカーに少しでも興味をもって頂けましたら、ぜひフォローやいいね、リツイートで応援お願いします!
・文字起こし
みんな~!「AIメーカー」で文字起こし機能をリリースしたよー!
— 2z@みんなのAI「AIメーカー」開発中 (@2zn01) 2018年8月18日
以下の方法で簡単に文字起こしを試せるので、ぜひ使ってみて~!!
📺YouTubeから文字起こし
🔗画像、音声、動画から文字起こし
🎙️録音で文字起こし
AIをうまく使って少しでも面倒な作業から解放だぁ~!https://t.co/qo13Wo6Yli pic.twitter.com/gsRigVROnK
・画像認識
今話題のAIをweb上で誰でも気軽に作れる「AIメーカー」を開発しました!
— 2z@AIメーカー (@2zn01) 2018年7月19日
①AIに覚えさせたいタグを入力
②タグから自動で画像データを収集
③AIがデータから学習
の3ステップで誰でも簡単にAIを作れます!
動画では手相占いのAIに挑戦!
みんなもAIを作って遊んでみてね!https://t.co/66DFU7GRZ2 pic.twitter.com/ie1LmioyA1