これは何?
RSSで集めた「任意のキーワード有り」「無し」と「多言語」の3つのCSVファイルを読み込み、言語圏ごとの温度感を視覚化しました。(隠れた予兆のパターンなどはAIをお勧めします)
なぜ作った?
- プロセスを透明化できる
- 多言語の情報を扱いやすくなる
- ライブラリや形態素解析の勉強
- 大局観を持つために分析するなら、スクリプトで行えることはスクリプトで行うと計算資源を浪費せずに済むから
出力例
→ analysis_debug.txt
これは図だけでは過程が分からないので、確認用のテキストファイルです
限界
英語で出来るだけRSSを集めたことと、中国語と韓国語のRSSの取得が困難だったこと、ロシア語は英語で集めたことなど、RSSの取得に偏りがあります。日本語の情報源も、一例です。MITライセンスなので、ライセンスの範囲で改変してご利用下さい。
売り
langdetectで、CSVの情報を言語ごとに振り分けられます。正規表現でやるより正確かと。
janomeとストップワードで、名詞・固有名詞を抽出しています。再利用出来るかもしれません。
参考にした記事:
関連記事
リポジトリ
最後までお読み下さりありがとうございます。