カタカナや記号、アルファベットや数字の全角や半角がまじったデータを、統一したい...となったときにする方法。
参考:
面倒なので、CSVをpandasで開いたときに、カラムごとに全角半角処理できるよう関数化しました。
columns = [] のリストにカラム名を入れるだけでOKなようにしています。
処理するもの:
カタカナ、記号(スペースとか)、数字をすべて半角にする。
#pip install jaconvを予めターミナルやコマンドラインツールでしておく。
import jaconv
def shori(column):
list= df[column].values.tolist()
new_list = []
for li in list:
li = jaconv.z2h(li,digit=True, ascii=True,kana=True)
new_list.append(li)
df[column] = new_list
return df[column]
##処理したいしたいカラム名をリストに入れます。
columns = []
#forで回します。
for column in columns:
shori(column)
#strじゃないとエラーが出るときも。そんなときは
df = df.astype(str)