pykakasi で glob.glob() であつめたひらがなのファイルリストを突っ込むと濁点がついた文字が化ける
Discussion
Closed
解決したいこと
pykakasiでひらがな→ローマ字に変換されたあと辞書のなかみが直打ちとリストで異なる
直打ちと同じ結果にしたい
元データ "が"
期待結果 "ga"
実際結果 "ka゛" か + 濁点
※ターミナルで確認
import pykakasi
import glob
kks = pykakasi.kakasi()
kks.convert('りざーどん')#そのまま入力
kks.convert('リザードン')
[{'orig': 'リザードン', 'hira': 'りざーどん', 'kana': 'リザードン', 'hepburn': 'rizaadon', 'kunrei': 'rizaadon', 'passport': 'rizaadon'}]
#りざーどん.txt が 同じフォルダにあるとします。
textlist = glob.glob('./*.txt')
list = [] #空のリスト作成
for i in textlist:
j = i.lsplit('./')#余計な文字をけす
k = j.split('.') # . で分割
list[0]
'りざーどん'
kks.convert(list[0])
[{'orig': 'りざーどん', 'hira': 'りざーどん', 'kana': 'リザードン', 'hepburn': 'risa゙゙to゙n', 'kunrei': 'risa゙゙to゙n', 'passport': 'risa゙゙to゙n'}]
おそらく ひらがな としては同じようにみえるが、文字コード?が異なるので結果が違うのだろうとおもいますが、まだ解決していません。
globでリスト化してしまうと直打ちとは違う?でも解決方法が見つからない ←現状
・文字コードをどこかで変換する?
・他の方法でファイルリストをつくる?