LoginSignup
1
2

More than 1 year has passed since last update.

Livedoorニュースコーパスの1記事をMeCabで形態素解析して名詞だけを抽出するまで

Posted at

環境

Python 3.7.6(Jupyter Notebook)
MeCab 0.996

Livedoorニュースコーパスのダウンロード

https://www.rondhuit.com/download.html からldcc-0140209.tar.gzをダウンロード・解凍。

MeCabで名詞の抽出

次のコードを実行して、「独女通信」の1記事を形態素解析・名詞のみ抽出する。

import MeCab

# 形態素解析の辞書を指定
mecab = MeCab.Tagger("-Ochasen")

# 適当なパスを指定
text = open("dokujo-tsushin-6915005.txt", mode="r").read()

result = []
for line in mecab.parse(text).splitlines():
     if "名詞" in line:
            result.append(line.split()[0])
            
print(result)

《解説》

  • ファイルオブジェクトのread()でファイル全体を文字列として取得します
  • mecab.parse(text)で形態素解析して得られるデータはtsv形式です
  • splitlines()で1行に分割し、"名詞"を含む場合はresult(リスト)に追加します

↓ 形態素解析で名詞だと解析された1行を抜粋

男女	名詞,一般,*,*,*,*,男女,ダンジョ,ダンジョ

結果

['http://', 'news', 'livedoor', '.com', 'article', 'detail', '6915005', '2012', '09', '03', 'T', '14', '00', '00', '0900', 
'男女', '間', 'カワイイ', '基準', '理由', 'マナ', 'さん', '26歳', '塾講師', '顔立ち', '柳原可奈子', 'メイク', 'ファッション', '方', '参考', 'こと', 'の', '以前', 'の', '嫌', 'しかた', '柳原', 'な!', '最初', 'の', 'アルバイト', '先', '先輩', '男性', '肥満', '体型', '丸', '顔', '無駄', 'ところ', '場', '私', 'そうそう', 'ん', 'ある時', '期', '柳原可奈子', 'の', '理由', '同僚', '女性', '塾', '生徒', '女子', 'たち', '柳原可奈子', 'カワイイ', 'よう', '彼女たち', '柳原可奈子', '存在', 'ん', '言葉', 'ん', '自分', '自信', 'よう', 'マナ', 'さん', '人', '印象', '男女', 'こと', 'カワイイ', '感覚', '差', 'よう', '男性', 'たち', '女性', 'カワイイ', 'あて', 'もの', 'カワイイ', '女性', 'たち', '感性', 'ボキャブラリー', 'の', '声', 'の', '…。', 'カワイイ', '感覚', '的', '理由', 'ん', 'の', 'アサコ', 'さん', '33歳', '広告', '関連', '好き', '人', 'モノ', 'カワイイ', '男性', '前', '声', 'トーン', '態度', '女性', '容姿', '性格ブス', '男性', 'カワイイ', '容姿', '重視', 'の', '既婚', '者', 'ヒロコ', 'さん', '37歳', '公務員', '彼女', '結婚', '同僚', '友人', '紹介', '反応', 'ん', '最初', '見た目', '振り分け', '性格', 'しぐさ', '関心', 'ん', '彼女', '結婚', '私たち', '女性', 'カワイイ', '言葉', '周囲', '男性', 'たち', 'ヒロコ', 'さん', '話', 'ところ', '男性', '見た目', '優先', 'の', '異性', 'の', '仕方', '女性', 'イケメン', '反論', 'の', 'アキヒロ', 'さん', '34歳', '設計', '意見', '彼女', '容姿', 'カワイイ', '女性', 'つながり', 'こと', '自分', 'ステイタス', '自信', 'ん', '新た', '女性', '紹介', 'とき', '容姿', 'ん', '容姿', '重視', '男性', 'たち', 'ガード', 'そう', 'お金', 'そう', 'そう', '判断', '瞬時', '知り合い', 'メリット', '女性', '女性', '無意識', '区別', 'の', '8月24日', '配信', 'ブス', '森山中', '大島美幸', 'ブス', '理由', 'Gow', 'Magazine', '放送作家', '鈴木おさむ', 'ネタ帳', 'アメブロ', '妻', '美幸', '魅力', '共感', '女性', '彼女', '魅力', '多く', '男性', 'たち', '男女', '間', 'カワイイ', '溝', 'こと', '共感', '範囲', 'こと', '大切', '女性', 'カワイイ', 'ポイント', '男性', 'たち', '共有', 'よう', 'カップル', '世の中', '何', '倍', 'こと', 'オフィスエムツー', '神田', 'はるひ']

配布された状態のテキストは最初の2行がリンクと時間情報を含むため、
2行分の無駄な英単語や数字を含んでしまったが、とにかく名詞を抽出できた。

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2