最初にまとめ
- 音声ファイルをCLOVA Noteに読み込ませる
- CLOVA Note上で話者の確認と設定のみをする
- CLOVA Noteからテキストデータを落としてくる
- ChatGPTにテキストファイルを読み込ませて情報整理の指示をする
- 出てきた情報に基づいてレポートを自身で書く
CLOVA Note は、後継の LINE WORKS AiNote が正式リリースされています。
https://note.com/clova_note/n/na3e61faee72d
オフライン音声からのレポート作成はツラい
写真撮影や、アプリやサービスの操作状況の確認等を伴うユーザーインタビューの際は、オフラインで実施されることが多いと思います。
オンラインであれば tl;dv を入れると、そこそこ快適な体験を得られます。しかし、オフラインのものはいろいろ試しましたが、なかなか良い結果を得られず、真面目にテープ起こし等をして消耗するため、ユーザーインタビュー自体、気が重いということが発生していました😭
この方法をするようになってから、かなり気が楽になりましたので、今回のアドベントカレンダーではそのやりかたのお裾分けです。
録音はどのデバイスで行うのか?
ボイスレコーダーやフィールドレコーダーみたいなものを使うこともありますが、この方法では比較的スマホの録音機能でも上手くいきます。
ハードを特殊なものにしてしまうと、当日そのデバイスを忘れた時に絶望してしまうので、スマホの録音機能でもあまり困らないは、それだけでも嬉しいですよね。
どの文字起こしツールを使うのか?
CLOVA Note にアップした音声は、学習に使われるので要注意です。
文字起こしツールの時点でいろいろなツールがあると思います。いろいろ観点はあると思いますが、アップロードした音声や出力されるテキストが、そのサービスの学習に使われるか?使われないか?は大きな判断軸となると思います。今回の CLOVA Note に関して言うと「使われるタイプ」ですので、ご注意ください。
それが許容できる状況では CLOVA Note を気に入って使っています。
CLOVA Note は、アップした音声をテキストに起こしてくれるのですが、その音声とテキストを同期して編集しやすいようにしてくれています。つまり音声を再生しているときに、どのテキストに対応しているかが分かりやすい表示になっています。逆にこのテキストのところから音声を再生して欲しい場合は、テキストを選択すると、そのテキストの箇所から音声が再生されるという仕組みです。
ただ、この昨日だけであれば別にいろいろなサービスが似たようなインターフェイスを採用しているので、CLOVA Note を選択する強みにはなりません。
僕が CLOVA Note で、一番気に入っているのは、このサービス側でテキストと一緒に連動する 音声がとても聞き取りやすい というところです。
他のサービスでも聞き取りやすくなるように、音声をアップロードする前にいろいろ処理してみたりしたのですが、圧縮されてしまったり、ボリュームが調整されてしまったりして、なかなかストレスなく、気持ちよく聞けるというものがなく、その意味では CLOVA Note はベストでした。
CLOVA Noteでどんな操作をするのか?
話者の設定のみをします。
各区切りごとに、話している人に対して「話者1」「話者2」「話者3」みたいな風にラベルが付けられます。2人で話している会話に対しては、80点ぐらいの精度で「話者1」と「話者2」が話しているというラベルがつきます。しかし、たまに声色がかわったりすると「話者1」の人が話している箇所でも「話者3」や「話者4」が設定されたりもします。
これを「〇〇さん」「△△さん」というラベルに直していきつつ、話している範囲に関して若干調整します。
この際、自動生成でのテキストは、多少間違っていても基本的には直さず、ほぼノータッチで大丈夫です。
話者の設定ができたところで、テキストファイルをダウンロードします。
ChatGPTでどんな操作をするのか?
直近で僕がこの作業をした際には GPT-4o を使いました。
先ほどのテキストファイルを添付し、下記のプロンプトを打ちます。
添付したファイルはインタビュー音声を文字に変換したテキストファイルです。
このテキストファイルを以下の4点に分けて、内容をまとめてください。
① トピック1
② トピック2
③ トピック3
④ トピック4
あんまり、変な裏技的なプロンプトを入れなくてもみたいな、比較的高精度に情報がまとめられて出てくると思います。(あんなに聞き取り間違いとかあったのに!)
この情報がまとまった状態で、あらためて音声を聞きながらレポートに起こすと、するする書けることが多いです。
なぜこれをしてもらうと楽なのか?
人の会話は、あとから聞いてみると思っていたよりも断片的で、とびとびに話していることが多いです。この断片的でとびとびな情報を、理路整然としたものにまとめるのは負荷が高いようです。
また人が話したことを完全に一字一句起こすのは、それが納品物で無い限り、賽の河原感が出てしまい、これもツラいです。
この2点に関してChatGPTに任せてしまって、大体合格点みたいな水準のものが出てくるだけでも、僕としてはかなりの負荷が軽減できます。
おかげで、オフラインインタビューからのレポート作成に対して、嫌な意識がかなり減りました。
自分がインタビュアーではなく、他の人が話して録音したものでも有効なので、困っている方、お試しください。
おまけ
自身で書いたテキストに関しては wordrabbit という文章校正ツールを愛用しています。自分で書いた文章を自分でチェックするというのも骨が折れる作業ですが、このツールを使うと比較的気楽にチェックできます。こちらも併せてお試しください!