環境
Python 3.7.6(Jupyter Notebook)
MeCab 0.996
Livedoorニュースコーパスのダウンロード
https://www.rondhuit.com/download.html からldcc-0140209.tar.gzをダウンロード・解凍。
MeCabで名詞の抽出
次のコードを実行して、「独女通信」の1記事を形態素解析・名詞のみ抽出する。
import MeCab
# 形態素解析の辞書を指定
mecab = MeCab.Tagger("-Ochasen")
# 適当なパスを指定
text = open("dokujo-tsushin-6915005.txt", mode="r").read()
result = []
for line in mecab.parse(text).splitlines():
if "名詞" in line:
result.append(line.split()[0])
print(result)
《解説》
- ファイルオブジェクトのread()でファイル全体を文字列として取得します
- mecab.parse(text)で形態素解析して得られるデータはtsv形式です
- splitlines()で1行に分割し、"名詞"を含む場合はresult(リスト)に追加します
↓ 形態素解析で名詞だと解析された1行を抜粋
男女 名詞,一般,*,*,*,*,男女,ダンジョ,ダンジョ
結果
['http://', 'news', 'livedoor', '.com', 'article', 'detail', '6915005', '2012', '09', '03', 'T', '14', '00', '00', '0900',
'男女', '間', 'カワイイ', '基準', '理由', 'マナ', 'さん', '26歳', '塾講師', '顔立ち', '柳原可奈子', 'メイク', 'ファッション', '方', '参考', 'こと', 'の', '以前', 'の', '嫌', 'しかた', '柳原', 'な!', '最初', 'の', 'アルバイト', '先', '先輩', '男性', '肥満', '体型', '丸', '顔', '無駄', 'ところ', '場', '私', 'そうそう', 'ん', 'ある時', '期', '柳原可奈子', 'の', '理由', '同僚', '女性', '塾', '生徒', '女子', 'たち', '柳原可奈子', 'カワイイ', 'よう', '彼女たち', '柳原可奈子', '存在', 'ん', '言葉', 'ん', '自分', '自信', 'よう', 'マナ', 'さん', '人', '印象', '男女', 'こと', 'カワイイ', '感覚', '差', 'よう', '男性', 'たち', '女性', 'カワイイ', 'あて', 'もの', 'カワイイ', '女性', 'たち', '感性', 'ボキャブラリー', 'の', '声', 'の', '…。', 'カワイイ', '感覚', '的', '理由', 'ん', 'の', 'アサコ', 'さん', '33歳', '広告', '関連', '好き', '人', 'モノ', 'カワイイ', '男性', '前', '声', 'トーン', '態度', '女性', '容姿', '性格ブス', '男性', 'カワイイ', '容姿', '重視', 'の', '既婚', '者', 'ヒロコ', 'さん', '37歳', '公務員', '彼女', '結婚', '同僚', '友人', '紹介', '反応', 'ん', '最初', '見た目', '振り分け', '性格', 'しぐさ', '関心', 'ん', '彼女', '結婚', '私たち', '女性', 'カワイイ', '言葉', '周囲', '男性', 'たち', 'ヒロコ', 'さん', '話', 'ところ', '男性', '見た目', '優先', 'の', '異性', 'の', '仕方', '女性', 'イケメン', '反論', 'の', 'アキヒロ', 'さん', '34歳', '設計', '意見', '彼女', '容姿', 'カワイイ', '女性', 'つながり', 'こと', '自分', 'ステイタス', '自信', 'ん', '新た', '女性', '紹介', 'とき', '容姿', 'ん', '容姿', '重視', '男性', 'たち', 'ガード', 'そう', 'お金', 'そう', 'そう', '判断', '瞬時', '知り合い', 'メリット', '女性', '女性', '無意識', '区別', 'の', '8月24日', '配信', 'ブス', '森山中', '大島美幸', 'ブス', '理由', 'Gow', 'Magazine', '放送作家', '鈴木おさむ', 'ネタ帳', 'アメブロ', '妻', '美幸', '魅力', '共感', '女性', '彼女', '魅力', '多く', '男性', 'たち', '男女', '間', 'カワイイ', '溝', 'こと', '共感', '範囲', 'こと', '大切', '女性', 'カワイイ', 'ポイント', '男性', 'たち', '共有', 'よう', 'カップル', '世の中', '何', '倍', 'こと', 'オフィスエムツー', '神田', 'はるひ']
配布された状態のテキストは最初の2行がリンクと時間情報を含むため、
2行分の無駄な英単語や数字を含んでしまったが、とにかく名詞を抽出できた。