LoginSignup
4
4

More than 5 years have passed since last update.

プログラムを1行も書かずに文書単語行列を作成する方法

Last updated at Posted at 2015-02-22
  1. テキストを準備する
  2. ChaKi.NET (http://sourceforge.jp/projects/chaki/releases/) をインストールする
    1. MeCab (https://code.google.com/p/mecab/) や形態素解析辞書も
    2. 係り受け解析をしたければ CaboCha (https://code.google.com/p/cabocha/) も
    3. それぞれ辞書とモデルを 同じ文字コードでインストールすること
  3. ChaKi.NET 用の DB を作成する
    • [ツール]→[Text to Corpus] で Text to Corpus を立ち上げテキストファイルを DB 化 header.png
    • ChaKi.NET のパネルではないウィンドウ上にテキストファイルをドラッグアンドドロップしても同じことができる import.PNG
    • 文分割処理などを必要な情報に修正して[実行]
  4. Search Conditions パネルの[コーパス]タブの[選択済コーパス]に作成した DB を追加
    • [追加]ボタンを押した後、複数の文書DBを選択 search.PNG
  5. Search Conditions パネルで [Tag 検索]タブをクリック ‐ 品詞により制約付けしない場合は何も選択しなくてよい tag.png
    • 名詞だけで文書単語行列を作成する場合には PartOfSpeech を "^名詞"にする tagn.png
  6. Command パネルで[ワードリスト開始]をクリック
    • 結果の表示(デフォルトでは表層形 (Surface)で表示) result.PNG
    • 集計する単位を変更する
      • Base Lexeme を展開する image
      • Part of Speech を展開する image
      • Surface を畳む image
  7. できた文書単語行列は[ファイル]→[Excel/CSVへエクスポート] image
  8. あとは Excel 上で整形して、Rなどのソフトウェアから読み込めばよい。
4
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
4