*これは自分用メモです
今までに使用したコードのメモ書きです
##intersection
intersection
a=['A','B','c']
b=['B']
c=a.intersection(b)
配列aと配列bの積集合を出力する関数
ジャッカード係数の計算などで使いました。
##stopword
stopword
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
print(stop_words)
英語のstopwordを取得します。
Tweetの感情予測で使用しました。
stopwordとは
自然言語処理で除外される一般的な単語
treemap
treemap
from ploty import graph_objs as go
import plotly.express as px
fig=px.treemap(list,value='common',title='Tree of XXX')
面積グラフです。
データビジュアライズで色々使えそうです。
自然言語処理
トークン化
通常のテキスト文字列を欲しい単語のリストに変換するプロセス
単語を見つけやすくなる
ステム処理
[run][running][ran]
など同じ意味の単語を[run]などの一般系に戻す処理
ストップワードの除去
今後も勉強する中で調べたものをメモ書きしていきます