More than 3 years have passed since last update.

未経験日大文系卒が学ぶ自然言語処理

Last updated at 2022-09-11Posted at 2022-09-11

初めに

どうも、python歴6カ月で、今年中に転職を夢見る者です。
ここ1~2週間当たり、自然言語処理を中心として学習しておりました。
その成果物を共有し、私と同じ境遇の他の方々の少しでも助けになればと思います。
モットーは｢俺でも分かるなら誰でも分かる｣です。
一般人向けの参考書やサイトを見て挫折した私ですが、出来る限り丁寧にまとめたつもりではあります。

環境

windows11 colab

実装

難易度★☆☆☆

自然言語処理①　⇒ 自然言語処理の最初の一歩。外観をなんとなく

自然言語処理②　⇒ 続けてこちらもどうぞ。　こちらは単語をどのように数値化してPCに取り込むのかを考えます。

Word2Vecの実装①　単語をベクトル表現するword2Vecの実装を行ってみましょう。記事の取得からがっつり流れで行います。　資料はこちら

難易度★★☆☆

文章や単語をベクトル化して機械学習を行います。結果的にはその文章からどの記事ジャンルに割り当てられるのか、その単語から、どの記事ジャンルが近いのか。等を予測するモデルを作成します。　分類モデルの作成。訓練データは記事、テストデータは記事のジャンル。

文章のベクトル化(mecab) 　資料はこちら

単語のベクトル化(janome) 　資料はこちら

こちらはネガポジ判定です。文章を投入して全体的にこの文章がネガティブ化ポジティブ化を判定する仕組みを作成しております。今回は例として芥川や歌詞を投入して調べています。
極性辞書のcolab　極性辞書データ　 sampleテキスト

難易度★★★☆

極性辞書のcolab　データ元資料　　この回では英語のtweetとその内容がpositive/negative/neutral に分類されたデータがございます。このtweetからpositive/negative等のラベルを予測するモデルを作成しております。

終わりに

いかがでしょうか。
全体的に難しく、私も全てを理解して解説をしているわけではございません。
随時アップデートを重ねていくつもりですので温かく見守って頂ければと思います。

因みに以前はこのように時系列解析をまとめておりました。この記事も思い入れがあり、採用担当者に胸を張ってお見せできる形を目指しております。ゆくゆくはこの自然言語処理も同じぐらいのクオリティになればと。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up