More than 3 years have passed since last update.

学習記録その２９（３３日目）

Posted at 2020-01-28

#学習記録（33日目）
勉強開始：１２／７（土）〜

教材等：
・大重美幸『詳細！ Python3 入門ノート』(ソーテック社、２０１７年)：１２／７（土）〜１２／１９（木）読了
・Progate Python講座（全５コース）：１２／１９（木）〜１２／２１（土）終了
・Andreas C. Müller、Sarah Guido『（邦題）Pythonではじめる機械学習』（オライリージャパン、２０１７年）：１２／２１（土）〜１２月２３日（土）読了
・Kaggle : Real or Not? NLP with Disaster Tweets ：１２月２８日（土）投稿〜１月３日（金）まで調整
・Wes Mckinney『（邦題）Pythonによるデータ分析入門』（オライリージャパン、２０１８年）：１／４（水）〜１／１３（月）読了
・斎藤康毅『ゼロから作るDeep Learning』（オライリージャパン、2016年）：１／１５（水）〜１／２０（月）
・François Chollet『PythonとKerasによるディープラーニング』（クイープ、2018年）：１／２１（火）〜

#『PythonとKerasによるディープラーニング』
p.261 第6章テキストとシーケンスのためのディープラーニング　の途中まで読み終わり。

#学習済みの単語埋め込み（２日目）
昨日苦戦していたトークン化は完了しました。

データの前処理（自然言語処理）

#type : pandas.core.series.Series

#小文字に変換
X_l = X.str.lower()

#不要な文字を半角スペースに置き換える。
X_r = X_l.replace(',', ' ').replace('.', ' ').replace('#', ' ').replace('＃', ' ').replace('!', ' ').replace('！', ' ').replace('　', ' ')

#半角スペースをセパレータとして各単語に分割
X_s = X_r.str.split(' ')

#まとめて定義
def make_vector(df):
    X_l = df.str.lower()
    X_r = X_r = X_l.replace(',', ' ').replace('.', ' ').replace('#', ' ').replace('＃', ' ').replace('!', ' ').replace('！', ' ').replace('　', ' ')
    X_s = X_r.str.split(' ')
    return X_s

これでデータセットから取り出したtextについてのトークン化が終わったため、後は定義したモデルに学習させるのみです。（実施中）

ちなみに最初は以下のとおり、一つずつ取り出してfor文で回そうとしてたんですけど、どうもうまくいかない。

わざわざ取り出さなくてもSeriesのまま前処理をすればいいんじゃないかとふと思ったため、調べてみたところ、やはり可能であることが判明。
pandas公式(API reference, Series)を参考にしつつ書き、前処理に成功しました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

学習記録 その２９（３３日目）

学習記録その２９（３３日目）