@wellwell3176posted at 2020-11-04

データに含まれる文字の一括変換方法

Q&A

Closed

Python

追記

回答を元に完成できました。ありがとうございます。
https://qiita.com/wellwell3176/items/5c94871b5e059fce1e3d

解決したいこと

データに含まれる特定の文字列を抽出・変換したい。
例えば表1のようなデータが有り、データは「名前＋復数の記号」で構成されている。
これに対して、表2のような変換表を用いて、表3のようなデータを作りたい。

表1 生データ df_raw

No.	馬名
1	コシヒカリ○③
2	ササニシキ◎
3	ヨモギダンゴ✕②
4	タナカタロウ①

表2　変換表

key	value	key	value
①	1番	◎	本命
②	2番	○	対抗
③	3番	✕	大穴

表3　作りたいデータフレーム

No.	馬名	新聞予想	自分予想
1	コシヒカリ	対抗	3番
2	ササニシキ	本命
3	ヨモギダンゴ	大穴	2番
4	タナカタロウ		1番

自分で試したこと

今は変換表を使わず力技で実装しているのですが、これだとメンテナンスが大変なので、
変換表をCSVとして読み込んで、そのデータをもとに変換を掛けたい状況です。

自作

import pandas as pd

df = pd.DataFrame(
    data=[{
        'No.': 1,
        'horse': 'コシヒカリ○③',
    }, {
        'No.': 2,
        'horse': 'ササニシキ◎',
    }, {
        'No.': 3,
        'horse': 'ヨモギダンゴ✕②',
    }, {
        'No.': 4,
        'horse': 'タナカタロウ①',
    }])

df_shinbun=df["horse"].str.extract("(○|◎|✕)").replace("◎","本命").replace("○","対抗").replace("✕","大穴").fillna("")
df_kojin=df["horse"].str.extract("(①|②|③)").replace("①","一番").replace("②","二番").replace("③","三番").fillna("")
df["horse"]=df["horse"].str.replace("○|◎|✕|①|②|③","",regex=True)

df_complete=pd.concat([df,df_shinbun,df_kojin],axis=1)
df_complete.columns=("No.","horse","新聞予想","個人予想")

結果として出力される表（表３と一致しているので、ひとまずこれを使っている）

No.	horse	新聞予想	個人予想
1	コシヒカリ	対抗	三番
2	ササニシキ	本命
3	ヨモギダンゴ	大穴	二番
4	タナカタロウ		一番

追記

自作

dictionary_data = pd.read_excel("hogehoge.xlsx")
df_dict=dictionary_data.to_dict()

表２を格納したhogehoge.xlsxに対して、to_dict()を行うことで辞書データへの変換はできた。

0 likes

2Answer

@Cartelet posted at 2020-11-04

もともと使用なさっていたコードを汎用化しただけですが。。。
Pandasはほとんど使用経験がないので、もっといいやり方があるかとは思います。

def tagging(df, column, trdict): #もとのDataFrame, 分類に使用するカラム, 分類用の辞書
    for key, d in trdict.items():
        df_ = df[column].str.extract(f'({"|".join(d.keys())})')
        for k, v in d.items():
            df_ = df_.replace(k, v)
            df[column] = df[column].str.replace(k, "")
        df[key] = df_.fillna("")
    return df


tagging(
    df,
    "horse",
    {
        "新聞予想": {"◎": "本命", "○": "対抗", "✕": "大穴"},
        "個人予想": {"①": "一番", "②": "二番", "③": "三番"},
    },
)

第3引数の辞書さえ作ってしまえば目的の表が出力されます。

2Like

Comments

@wellwell3176
Questioner
@Cartelet様

ありがとうございます。
tagging()の中身は勉強中ですが、出力は正確に出ていました。
辞書の読み込み次第でうまくいきそうなので、試してみます。
@wellwell3176
Questioner
追記：一番上にも書きましたが、無事に実装できました。
中身も大まかな流れは理解できた気がします。どうもありがとうございました。

@tetr4lab posted at 2020-11-04

Carteletさんのコードの比べると、全く汎用にはなっていませんが、辞書による一括置換の部分だけでも参考になればと思いまして、恥を忍んで書かせていただきます。

コード

import pandas as pd

# CSVから読み込まれたことにする辞書データ
kojin=pd.DataFrame([
    { 'symbol':'①', 'str':'1番' },
    { 'symbol':'②', 'str':'2番' },
    { 'symbol':'③', 'str':'3番' },
])
shinbun=pd.DataFrame([
    { 'symbol':'◎', 'str':'本命' },
    { 'symbol':'○', 'str':'対抗' },
    { 'symbol':'✕', 'str':'大穴' },
])

# 操作対象データ
df = pd.DataFrame(
    data=[{
        'No.': 1,
        'horse': 'コシヒカリ○③',
    }, {
        'No.': 2,
        'horse': 'ササニシキ◎',
    }, {
        'No.': 3,
        'horse': 'ヨモギダンゴ✕②',
    }, {
        'No.': 4,
        'horse': 'タナカタロウ①',
    }])

# 辞書の生成
kojin_symbols='('+pd.Series(kojin["symbol"]).str.cat(sep='|')+')'
kojin_dict=dict(zip(kojin.symbol,kojin.str))
shinbun_symbols='('+pd.Series(shinbun["symbol"]).str.cat(sep='|')+')'
shinbun_dict=dict(zip(shinbun.symbol,shinbun.str))

# 辞書による置換
df_kojin=df["horse"].str.extract(kojin_symbols).replace(kojin_dict).fillna("")
df_shinbun=df["horse"].str.extract(shinbun_symbols).replace(shinbun_dict).fillna("")
df["horse"]=df["horse"].str.replace(shinbun_symbols,"",regex=True).replace(kojin_symbols,"",regex=True)

# 対象への操作
df_complete=pd.concat([df,df_shinbun,df_kojin],axis=1)
df_complete.columns=("No.","horse","新聞予想","個人予想")

# 出力
print (df_complete, "\n")
print(kojin, "\n", kojin_dict, "\n", kojin_symbols)
print(shinbun, "\n", shinbun_dict, "\n", shinbun_symbols)

結果

   No.   horse 新聞予想 個人予想
0    1   コシヒカリ   対抗   3番
1    2   ササニシキ   本命     
2    3  ヨモギダンゴ   大穴   2番
3    4  タナカタロウ        1番 

  symbol str
0      ①  1番
1      ②  2番
2      ③  3番 
 {'①': '1番', '②': '2番', '③': '3番'} 
 (①|②|③)
  symbol str
0      ◎  本命
1      ○  対抗
2      ✕  大穴 
 {'◎': '本命', '○': '対抗', '✕': '大穴'} 
 (◎|○|✕)

実のところ、PandasどころかPython自体も解っていませんので、おかしなことをしていたらごめんなさい。

1Like

Comments

@wellwell3176
Questioner
@tetr4lab様

ありがとうございます。
replaceの引数にdict型を入れられるんですね。
元となる辞書ファイルが増えそうなので、そのあたりを解決する必要はある気がしますが、参考になりました。
@tetr4lab
お役に立てず申し訳ありません。
CSVとのことでしたので単純な表を想定しました。
種類毎に分けないなら、種類を表すカラムを増やして、それでフィルタして辞書に振り分ける感じになるでしょうか。
@wellwell3176
Questioner
実際のデータだと変換表にそれなりのサイズが有り、簡略化したことが誤解を生んだようで申し訳ありません。

最終的には変換表をカラム別でフィルタリングしました。辞書のフィルタリングについては知らなかったので、アドバイスありがたかったです。

Are you sure you want to delete the question?

データに含まれる文字の一括変換方法

追記

解決したいこと

自分で試したこと

2Answer

Comments

Comments

Your answer might help someone💌