ことはじめ
自然言語処理を実施しようと思う。
そのために、必要な機能をリスト化している。
基本的な方針
使用言語はpythonで、スタンダードなやり方をまず学習する。
その後で、自身がやりたい箇所についてカスタムするための方法を学習する。
自身への課題
- ドキュメントは1次情報に当たる。
- 単純なライブラリユーザーにはならない。
疑問
クローラーで必要なデータを検索するロジックをどうするか?
解析したデータから意味を解釈するためのデータベースをどうやって作っているのか?
調査対象
Python による「スクレイピング & 自然言語処理」入門
調査結果
- クローラーに必要な機能
- クロールリストの制御機能
- クロースするURLを保持する
- クローリングのタイミングを制御する
- クローリング機能
- URLからhtmlドキュメントを取得する
- クロールリストの制御機能
- 前処理に必要な機能
- 取得したデータの加工機能
- htmlドキュメントから、htmlタグを取り除いて必要なデータを取得する機能
- 取得したデータをプログラムで扱いやすい構造に変更する機能
- 前処理しやすいように、所定の形式に加工する機能(csv, データフレーム, など)
- 前処理機能
- 前処理をほどこす
- 前処理済みのデータを保存する
- 取得したデータの加工機能
- 自然言語処理に必要な機能
- 調査中
- MeCabを使った頻度分析を予定
- 調査中