Help us understand the problem. What is going on with this article?

超絶簡単にテキストコーパスを作ってザクザク自然言語処理できてしまう。

あらすじ

テキストコーパスを作ろうとしたけどネット記事やブログ、youtubeにネタが散在してて
スクレイピングがめんどい。ネタ元がAPI対応してなかったりでどうしよっか。。

あと根性で抜き出しても精度があんまりだったら嫌だな。サクっと確認もできないものか。

あ、やりたいのに合わせて作ってしまえばいい!

作ったもの

クリップボードを監視してテキストが来たら自動で分かち書きに変換して出力します。
ショートカットキーでモデル作って、選択したテキストで試しに予測精度見れます。

そんだけですが超絶楽です:grin:

demo.gif

youtubeの文字起こしからも抜けます!

regexp.png

コード

ここです

fasttextじゃなくてもっと最近のツール使えないの?

すみません、貧弱な大昔ノートPCなもので。。

というかこういうの既にありそうな気がする。ちゃんとしたのもうあったら申し訳ない。。

ykato
業務でコード書くのが叶わず、ど下手のままだけど、コード書きまくっていつか、みんなに喜ばれるようなツールを作りたい! 投稿内容の全ては個人の見解に基づくものであり、所属する組織の公式見解と正確な現在状況の調査結果を広報しているものではありません
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away