今回は「OpenAI API」を使ったテキスト化に挑戦!
あれ、今までとは違う仕組み?
実はいま…音声のテキスト化の新しい仕組みを導入しようか…検討中です。
なぜ、そう考えるのか…?
そのことを知るためには、この「読むアーカイブス」というコンテンツが、どんなフローで出来上がっているかを理解する必要がありますので、ちょとだけ種明かしをさせて頂きます。
- スタエフの音声をダウンロード
- ステレオミキサーで音声を再生し、Googleドキュメントの音声入力で、文字起こし
- ご認識や表記の揺れを、ChatGPTを使って少しだけ整形
- 手入力での修正、若干の表現の変更、段落分けなどの仕上げ作業
おおよそこの工程で行っています。スタエフの音声を、ほぼ全文丸っと掲載しているのも、このためです。中でも地味に工数がかかるのは、「2.文字起こし」。途中で処理が停止してしまったり、音声入力は生きているのに文字が反映されなかったり、PCの前に貼りついて作業を行っているのです。(「せっかく自動化したのに、ランダムに発生するエラーのために、離れられない」という、RPAの業界あるあるです)
こんな理由から、新しいテキスト化の仕組みを検討(場合によっては自作も)しているわけです。
今回テストするのはコチラ
何を使うのが良いのか…調査した結果。コチラの記事「【オススメのQiita記事をピックアップ】ChatGPTの分かりやすい記事5選!」をまとめるときに出会った、「OpenAI」のAPIを使った手法を試してみたくなりました。
Pythonのフレームワークである「Streamlit」を使っているとのことで、ChatGPTの「Code Interpreter」で実装ができれば、めちゃくちゃシンプルに実現できるかもという心づもりで、まずは「見せてもらおうか!」…と性能を確かめようと思った次第です。
では…早速、OpenAIの「API」とPythonの「Streamlit」を使ったテキスト化&要約を、以下に披露したいと思います。
どうぞ、ご覧ください。
StandFM #036より「読むアーカイブス」誕生!
この記事は、ドーナツ部長のホールナイトニッポン「#036 目で見るスタンドFM「読むアーカイブス」誕生!」の内容を、自動化ツールを組み合わせてテキスト化したものです。テキスト化に際して、一部言い回しのカットや、文末の変更と要約を行っています。
イントロダクション
やってまいりました「ドーナツ部長のホールナイトニッポン」ということで、36回目の放送となります。ここ最近の私の発信を見て頂いている方は、気づいているかな…と思うんですけど。最近ですね、「ぬるぺでぃあ」という情報発信サイトの方で、アウトプットを継続しています。
そこで本日は、ここ最近のトピックスをまとめた形でお届けしたいと思います。
本編➀「『ぬるぺでぃあ』とは…?」
まずお話したいのは、ここ最近のトピックスです。トピックスといっても、NFT市場や他のプロジェクトのことではなく、私個人のトピックスです。もしね、私に興味がない方がいましたら、聞かない方が…時間を有効活用できるんじゃないかなと思いますので。そういう方はね、ぜひとも「palpalさん」の放送を聞いてほしいと思います。超有益ですからね。
ここ最近のトピックスですが…まずはですね、前提条件として抑えていただきたいのが、「ぬるぺでぃあ」というサイトの存在。ちょっと前までは「ドーナツ図鑑」という名前で、NFTに特化した"バラエティ・ブログ"という形をとっていました。過去に書いたPJの紹介記事は、今も変わらず残っていますので、ご安心ください。しかし、NFTに特化したバラエティ・ブログという形で運営をしてきたわけですけれども、NFTに限らうに、Web3を構成する様々な技術やトピックスを取り扱いたいな…ということで。
私のアウトプットの練習の場も兼ねて、「ぬるぺでぃあ」という名前のサイトにリニューアルをしたわけです。ここ最近は割と頻繁に、そんなに長い記事ではないんですけど、記事の方をアップしています。
例えば…6月26日には、「普通の会社員が、NFTを発行し始めたわけ」ということで、ドーナツ部長がなぜ誕生したのかというストーリーの一端を「ドキュメンタリー形式」でご紹介しています。ファウンダーである私(著者)が、どういう仕事をしていて、その仕事の中で何を感じて、「どうしてドーナツの穴に部長を入れたいと考えたのか?」「ドーナツの穴を、NFTのパートナーとして選んだのか?」そんな理由を書いています。非常に短い記事になってますので、ぜひ読んでいただきたいですね。
本編➁「気になる…coinviseとは?」
もう一つは…ですね。ちょっと前から、どうやら存在はしていたようなんですけど。私はこのサービスを、本当につい最近知りました。「coinvise」というサービスです。
※この記事「多機能!Coinviseで出来る事〜プロフィール作成編〜」に始め方をまとめています。気になった方は、ぜひ。
何ができるかのか…というと、「独自のトークンを発行」したり、よりガス代の安い"Layer2"のチェーンで、ブリッジができたり。あとは、マルチシグウォレットで安全にトークンを管理することができたり…など。他には…NFTのメンバーシップですね。これを立ち上げることができると、私が見たところ、いくつかの機能は今クローズしてるんじゃないかなという疑惑も、実はあったりとかで。まだ細かくは見れてないんですけど、ただ現時点でも、メンバーシップをつけるのは、機能開放されてましたので…。実は、今一番触ってみたいツールです。これについても、プロフィールを作るところまでは、記事の中で簡単にご紹介しています。
本編➂「マークダウン形式のススメ」
そして、ここ最近。「ぬるぺでぃあ」に掲載する記事が、割といいペースで書けています。それには、少しだけ秘密があって…「マークダウン形式」という方法で、記事を書いているからなんです。これまでの記事の書き方っていうのは、割とテキストベースで、ダダ打ちのような形で記事を書いていって、それを書き終わった後で構成を見直して、見出しをつけて、そしてデザイン装飾を考えて…というような書き方をしていたんですね。
で、思うわけです。「そこまで、装飾にこだわる必要があるのかな?」と。正直、記事を書くたびに、毎回思っていましたね。やっぱり、ある程度の見出しと中身がちゃんと対応をしていて、読みやすいレイアウトであれば、問題ないんじゃないかな?と。
色々と調べてみると、どうやら「マークダウン形式」という書き方があるということを知りました。マークダウン形式でしばらくブログの記事を書いてみて、最低でも「4つのルール」さえ覚えておけば、記事が書けることを学びました。
※Markdown形式で記事を書くならコチラ
「見出しの書き方」「箇条書きのリスト形式の書き方」「画像の埋め込み方」… 最後に「リンクの記載の仕方」です。この4つを抑えておくことで、ほぼ問題なく記事が書けるんですね。実は…私も、本業ではもうマークダウン形式で、色々なものを書いています。例えば、スライドを作る時も、マイクロソフトの「Visual Studio Code」という、コードを書くアプリケーションがあるんですけど。そこにプラグインを入れてあげると、マークダウン形式のものをスライドっぽく表示することもできるんです。
本編➃「読むアーカイブスについて」
ここからが、メイントピックスになります。それは…「スタンドFMの音声を、テキストに起こしてみました!」という内容です。これ、実は…ずっとやりたかったことで。何か良い方法がないかなということで、試行錯誤をずっと続けてきました。スタンドFMの音声データを、テキストにできないかな…ということで。優秀な有料アプリがいくつかあると思うんですけど、可能であれば、初期費用はかけずにいきたいなというのが、この時代のスタートだと思っています。まずは、既存の自動化ツールを組み合わせて、テキスト化できないかなと。
試行錯誤の結果、まだ万全とは言えないんですけれども、ある程度形になったかなというフローをつくることができました。今回は、その方法を使って、これまでのスタンドFMの中でも「重要な回」と言える放送回をテキスト化していきます。「読むアーカイブス」ということで、今後もシリーズ化していきたいと思いますので、今後もぜひ、ご期待の方よろしくお願いします。
本当はね、スタンドFMなので音声で聞いてほしいんですけれども、とはいえ、音声での情報配信者の方がどんどん増えてきている現実があります。私もそうですが、みなさんの耳も渋滞してますよね。「耳が渋滞しているなら、読んでもらおう!」ということで、読むアーカイブスというものを立ち上げた次第でございます。
音声は実はアーカイブには不向き、という個人的な考えがありますので、文字にすることで、ダイジェスト的に情報を見れるっていうのはいいかもしれないですね。
エンディング
ということで、本日はここ最近の「ぬるぺでぃあ」のトピックスについて、お話をさせていただきました。本日の配信は、以上となります。最後まで、ご清聴ありがとうございました。では、また。
この記事は、著者が運営するメディア「ぬるぺでぃあ」でも読むことができます(記事はコチラ)