0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

学習記録 その29(33日目)

Posted at

#学習記録(33日目)
勉強開始:12/7(土)〜

教材等:
・大重美幸『詳細! Python3 入門ノート』(ソーテック社、2017年):12/7(土)〜12/19(木)読了
・Progate Python講座(全5コース):12/19(木)〜12/21(土)終了
・Andreas C. Müller、Sarah Guido『(邦題)Pythonではじめる機械学習』(オライリージャパン、2017年):12/21(土)〜12月23日(土)読了
Kaggle : Real or Not? NLP with Disaster Tweets :12月28日(土)投稿〜1月3日(金)まで調整
・Wes Mckinney『(邦題)Pythonによるデータ分析入門』(オライリージャパン、2018年):1/4(水)〜1/13(月)読了
・斎藤康毅『ゼロから作るDeep Learning』(オライリージャパン、2016年):1/15(水)〜1/20(月)
François Chollet『PythonとKerasによるディープラーニング』(クイープ、2018年):1/21(火)〜

#『PythonとKerasによるディープラーニング』
p.261 第6章 テキストとシーケンスのためのディープラーニング の途中まで読み終わり。

#学習済みの単語埋め込み(2日目)
昨日苦戦していたトークン化は完了しました。

データの前処理(自然言語処理)
#type : pandas.core.series.Series

#小文字に変換
X_l = X.str.lower()

#不要な文字を半角スペースに置き換える。
X_r = X_l.replace(',', ' ').replace('.', ' ').replace('#', ' ').replace('', ' ').replace('!', ' ').replace('', ' ').replace(' ', ' ')

#半角スペースをセパレータとして各単語に分割
X_s = X_r.str.split(' ')

#まとめて定義
def make_vector(df):
    X_l = df.str.lower()
    X_r = X_r = X_l.replace(',', ' ').replace('.', ' ').replace('#', ' ').replace('', ' ').replace('!', ' ').replace('', ' ').replace(' ', ' ')
    X_s = X_r.str.split(' ')
    return X_s

これでデータセットから取り出したtextについてのトークン化が終わったため、後は定義したモデルに学習させるのみです。(実施中)

ちなみに最初は以下のとおり、一つずつ取り出してfor文で回そうとしてたんですけど、どうもうまくいかない。
a.png
わざわざ取り出さなくてもSeriesのまま前処理をすればいいんじゃないかとふと思ったため、調べてみたところ、やはり可能であることが判明。
pandas公式(API reference, Series)を参考にしつつ書き、前処理に成功しました。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?