概要
OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を発表しました。
ただこのモデルはGPUを使うので、精度を試したりするのに気軽に実行できません。
特にGPUを積んでいるWindows機がないような、Macユーザは中々このモデルのすごさを自分の使いたい音声や動画で試せないのはもったいないと思います。
また個人的に、このWhisperの音声認識の恩恵を受けれるのは、非エンジニアで議事録などを書かれている方だと考えています。
そこで公式のGoogleColaboratoryを改造して、非エンジニアやMacユーザでも気軽に使え、日本語フレンドリーなGoogleColaboratoryを作成しました。
このGoogleColaboratoryを使うことで、普段議事録を作られている方の負担が少しでも減ればと思います。
できること
最新のモデルで自分の録画や音声ファイルを音声認識させ、その結果をファイルの時間のポジションとともに、CSV,JSON, Markdown 形式でコピーできます。
CSV形式でコピーできるので、Google SheetsやExcelに取り込むことが出来ます。
使い方
このリポジトリにアクセスして、以下画像のアイコンをクリックしてください。
GoogleColaboratoryという、Googleが提供している無料でPythonが実行できて、GPUも利用できる環境のページへ遷移します。
https://github.com/akitana-airtanker/Whisper-Easy-Colab
手順としては、
- Google Driveに音声認識したい音声ファイルや動画ファイルをアップロードする(動画でもいい感じに変換してくれます)
- GoogleColaboratoryに記載されている手順通りに実行する
- Google Driveへの接続
- アップロードしたファイル名を入力
- 変換の実行
- GoogleColaboratory下部に記載されている手順で、CSV,JSON, Markdown 形式でコピー
となります。
実際のやることについては、GoogleColaboratoryに記載していますが、手順ごとに実行ボタンを3回押すだけとなっています。
(コード部分を隠しているので、コードが見えているだけで辛い...と言う方でも実行できます)
GoogleColaboratory とは
Googleが提供しているWebで機械学習やどが実行できる環境を提供している無料のサービスです。もちろんより安定したリソースを確保する場合は、有償のプロプランを契約されることをお進めします。
また Google Drive と GoogleColaboratory しか利用していないため、ある程度秘匿性が高い情報でも実施しやすいかと思っています。(もちろんGoogleを信用している限りは)
Colaboratory(略称: Colab)は、Google Research が提供するサービスです。Colab では、誰でもブラウザ上で Python を記述、実行できるため、機械学習、データ分析、教育に特に適しています。具体的には、GPU などのコンピューティング リソースに料金なしでアクセスしながら、特別な設定なしでご利用いただけるホスト型の Jupyter Notebook サービスです。
本当に料金なしで利用できるのですか?link
はい。Colab は料金なしでご利用いただけます。
OpenAIとは
近年では、自然言語処理と画像生成を組み合わせたAI「DALL・E」や、大規模言語モデルの代名詞とも言える「GPT-3」などを開発している団体です。今回この団体が高精度で多くの言語に対応しているモデルを公開したために、話題になっています。
OpenAI は、人工知能を研究する非営利団体である。人類全体に、害をもたらすよりは、有益性があるやりかたで、オープンソースと親和性の高い人工知能を、注意深く推進することを目的として掲げている[3]。
2015年12月に設立された。イーロン・マスクをはじめとする有力な実業家・投資家が参加していることから注目を集める[4]。
2016年4月に強化学習アルゴリズムの検証プラットフォームであるOpenAI Gymを発表した[5][6]。
最後に
これで世の中から議事録を作成する手間が少しでも減らせればと思います。
読んでいただきありがとうございました。