Posted at

【ことはじめ】自然言語処理機能の作成


ことはじめ

自然言語処理を実施しようと思う。

そのために、必要な機能をリスト化している。


基本的な方針

使用言語はpythonで、スタンダードなやり方をまず学習する。

その後で、自身がやりたい箇所についてカスタムするための方法を学習する。


自身への課題


  • ドキュメントは1次情報に当たる。

  • 単純なライブラリユーザーにはならない。


疑問

クローラーで必要なデータを検索するロジックをどうするか?

解析したデータから意味を解釈するためのデータベースをどうやって作っているのか?


調査対象

Python による「スクレイピング & 自然言語処理」入門


調査結果


  • クローラーに必要な機能


    • クロールリストの制御機能


      • クロースするURLを保持する

      • クローリングのタイミングを制御する



    • クローリング機能


      • URLからhtmlドキュメントを取得する





  • 前処理に必要な機能


    • 取得したデータの加工機能


      • htmlドキュメントから、htmlタグを取り除いて必要なデータを取得する機能

      • 取得したデータをプログラムで扱いやすい構造に変更する機能

      • 前処理しやすいように、所定の形式に加工する機能(csv, データフレーム, など)



    • 前処理機能


      • 前処理をほどこす

      • 前処理済みのデータを保存する





  • 自然言語処理に必要な機能


    • 調査中


      • MeCabを使った頻度分析を予定