やったこと
- 文字列を分かち書きをし、結果をテキストファイルで出力する
- 読み込んだテキストファイルの文字列を分かち書きし、テキストファイルで出力する
分かち書きをする
owakati_1.py
# mecab 大文字小文字に注意
import MeCab
# datetime
import time
# 引数取得
import sys
from sys import argv
#引数の取得
input_file_name= sys.argv[1]
# 解析対象テキストファイルのインポート
open(input_file_name,'r') as f:
mecab = MeCab.Tagger("-Owakati")
text = mecab.parse('解析文字列はこちらです。')
mecab.parse('')
#ファイル実行開始時刻を取得
timestr = time.strftime('%Y%m%d-%H%M%S')
#出力ファイル名
out_file_name = "ochasen_" + timestr + ".txt"
with open(out_file_name, 'w') as f:
f.write(text)
読み込んだテキストファイルの文字列を分かち書きし、テキストファイルで出力する
owakati_2.py
# mecab 大文字小文字に注意
import MeCab
# datetime
import time
# 引数取得
import sys
from sys import argv
# 引数の取得
input_file_name= sys.argv[1]
# 解析対象テキストファイルを開く
f = open(input_file_name,'r')
# ファイルを読み込む
data = f.read()
# 分かち書きのみ出力する設定にする
mecab = MeCab.Tagger("-Owakati")
text = mecab.parse(data)
mecab.parse('')
#ファイル実行開始時刻を取得
timestr = time.strftime('%Y%m%d-%H%M%S')
#出力ファイル名
out_file_name = "ochasen_" + timestr + ".txt"
with open(out_file_name, 'w') as f:
f.write(text)
実行する
$ python owakati_2.py input.txt
最新辞書を使う&品詞も出力する。
owakati_3.py
# mecab 大文字小文字に注意
import MeCab
# datetime
import time
# 引数取得
import sys
from sys import argv
print('実行中…')
# 引数の取得
input_file_name= sys.argv[1]
# 解析対象テキストファイルを開く
f = open(input_file_name,'r')
# ファイルを読み込む
data = f.read()
# 分かち書きのみ出力する設定にする
mecab = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
text = mecab.parse(data)
mecab.parse('')
#ファイル実行開始時刻を取得
timestr = time.strftime('%Y%m%d-%H%M%S')
#出力ファイル名
out_file_name = "ochasen_" + timestr + ".txt"
with open(out_file_name, 'w') as f:
f.write(text)
print('ファイル出力完了 ファイル名:'+ out_file_name)
[Python]MeCabで誰でも簡単に分かち書きをする方法 | エンジニアの眠れない夜
Python: テキストファイルの読み込み - read()、readlines()、readline()メソッド | Yukun's Blog
Macでmecabを使う。 - Qiita