生成AI全盛ですが、あえてワードクラウドを作ってみる
夏休みの宿題として読書感想文が出されるケースがあると思うが、今であれば生成AIで要約し、それをもとに書き上げるという手法もあるだろう。
が、ここではあえて、頻出単語を可視化するワードクラウドの作成を取り上げてみる。
Qiitaは技術系の投稿サイトなので、Pythonを使ったワードクラウドの作成方法に関する記事は大量に存在する。ここではPythonを使わず、Webサービスとして存在するワードクラウドサイトを2つ紹介し、比較してみたい。
なお、元テキストとして用いるのは青空文庫『風の又三郎』である。
このページを全選択して貼り付け、またはURLを与えてワードクラウドを作成した。
UserLocal
- 1万文字までと、それ以上のテキスト量を処理できるもの、2種類のページが用意されている
ファンブライド
- テキスト貼り付けだけでなくURL指定で読み込みも可能
生成物の比較
- UserLocalは早くからワードクラウド機能を提供していたと思うが、さすがに要点を心得ている。予めストップワードがある程度適用されていると見られ、固有名詞や動詞がバランスよく拾われている。まずはUserLocalでワードクラウドを作るとよいだろう。
- 一方ファンブライドは助詞なども多く拾われてしまっている。しかしUsrLocalにない機能としてキーワード出現頻度の一覧表も付いているため、詳細を把握することが可能である。URLで公開されている文章であれば、URLを指定するだけという点も楽である。
テキストはどうやって用意する…?
ただし、読書感想文で使う際の問題は元となるテキストをどうやって用意すればよいかである。
青空文庫所蔵の書籍で済ませられるのであれば問題ないが、課題図書が指定されている場合はデータ化する必要がある。
著作権的には、私的複製は適法である。
このため、ローカルで処理できるOCRソフトを使うならば問題は生じない。最近のOCRはデジカメ撮影の画像でもそこそこの精度でOCR化できるだろう。
なお無料でWebサービスによるOCRを用いる方法(Googleドキュメントに画像を貼り付けてOCR化する方法のほか、最近は画像をGoogleにアップロードしてそのままテキスト抽出できる)についてははっきり可と言える根拠を持ち合わせていないため、自己責任で利用したい。