0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

3つのCSVファイル(多言語)からメガトレンドを抽出し、Gemini APIで英訳しワードクラウドとバブルチャートを生成しました

Posted at

これは何?

RSSで集めた「任意のキーワード有り」「無し」と「多言語」の3つのCSVファイルを読み込み、言語圏ごとの温度感を視覚化しました。(隠れた予兆のパターンなどはAIをお勧めします)

なぜ作った?

  • プロセスを透明化できる
  • 多言語の情報を扱いやすくなる
  • ライブラリや形態素解析の勉強
  • 大局観を持つために分析するなら、スクリプトで行えることはスクリプトで行うと計算資源を浪費せずに済むから

出力例

news_wordcloud.png

news_bubble_chart.png

analysis_debug.txt
これは図だけでは過程が分からないので、確認用のテキストファイルです

限界

英語で出来るだけRSSを集めたことと、中国語と韓国語のRSSの取得が困難だったこと、ロシア語は英語で集めたことなど、RSSの取得に偏りがあります。日本語の情報源も、一例です。MITライセンスなので、ライセンスの範囲で改変してご利用下さい。

売り

langdetectで、CSVの情報を言語ごとに振り分けられます。正規表現でやるより正確かと。

janomeとストップワードで、名詞・固有名詞を抽出しています。再利用出来るかもしれません。

参考にした記事:

関連記事

リポジトリ

最後までお読み下さりありがとうございます。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?