More than 3 years have passed since last update.

機械学習のEDAで使ったもの

Last updated at 2020-10-02Posted at 2020-09-08

*これは自分用メモです

今までに使用したコードのメモ書きです

intersection

a=['A','B','c']
b=['B']
c=a.intersection(b)

配列aと配列bの積集合を出力する関数
ジャッカード係数の計算などで使いました。

from nltk.corpus import stopwords
stop_words = stopwords.words('english')
print(stop_words)

英語のstopwordを取得します。
Tweetの感情予測で使用しました。
stopwordとは
自然言語処理で除外される一般的な単語

treemap

from ploty import graph_objs as go
import plotly.express as px

fig=px.treemap(list,value='common',title='Tree of XXX')

面積グラフです。
データビジュアライズで色々使えそうです。

トークン化
通常のテキスト文字列を欲しい単語のリストに変換するプロセス
単語を見つけやすくなる

ステム処理
[run][running][ran]
など同じ意味の単語を[run]などの一般系に戻す処理

ストップワードの除去

今後も勉強する中で調べたものをメモ書きしていきます