LoginSignup
1
2

More than 3 years have passed since last update.

ことはじめ

自然言語処理を実施しようと思う。
そのために、必要な機能をリスト化している。

基本的な方針

使用言語はpythonで、スタンダードなやり方をまず学習する。
その後で、自身がやりたい箇所についてカスタムするための方法を学習する。

自身への課題

  • ドキュメントは1次情報に当たる。
  • 単純なライブラリユーザーにはならない。

疑問

クローラーで必要なデータを検索するロジックをどうするか?
解析したデータから意味を解釈するためのデータベースをどうやって作っているのか?

調査対象

Python による「スクレイピング & 自然言語処理」入門

調査結果

  • クローラーに必要な機能
    • クロールリストの制御機能
      • クロースするURLを保持する
      • クローリングのタイミングを制御する
    • クローリング機能
      • URLからhtmlドキュメントを取得する
  • 前処理に必要な機能
    • 取得したデータの加工機能
      • htmlドキュメントから、htmlタグを取り除いて必要なデータを取得する機能
      • 取得したデータをプログラムで扱いやすい構造に変更する機能
      • 前処理しやすいように、所定の形式に加工する機能(csv, データフレーム, など)
    • 前処理機能
      • 前処理をほどこす
      • 前処理済みのデータを保存する
  • 自然言語処理に必要な機能
    • 調査中
      • MeCabを使った頻度分析を予定
1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2