0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Pandas × データ前処理:列ラベル判定からスケーリングまで自動でやる

Posted at

user:

Pandas DataFrame 形式のデータを加工する次のような関数を作りました。

def scale_data(df, method):
    if method == "Min-Max 正規化":
        return (df - df.min()) / (df.max() - df.min())
    elif method == "Zスコア標準化":
        return (df - df.mean()) / df.std()
    elif method == "最大絶対値スケーリング":
        return df / df.abs().max()
    else:
        return df

ところが、当然ですが、列によってはエラーが出ます。例えば、次の通りです。

TypeError: '<=' not supported between instances of 'datetime.datetime' and 'str'

エラーが起こる列はそのまま残して、エラーを起こさない列だけ加工するような関数に書き換えていただけませんか?

assistant:

はい、目的に応じて 数値列だけにスケーリング処理を適用し、それ以外の列(datetimestr 型など)はそのまま残すように関数を修正できます。以下が改良されたバージョンです:

def scale_data(df, method):
    df_scaled = df.copy()
    numeric_cols = df.select_dtypes(include='number').columns

    if method == "Min-Max 正規化":
        df_scaled[numeric_cols] = (df[numeric_cols] - df[numeric_cols].min()) / (df[numeric_cols].max() - df[numeric_cols].min())
    elif method == "Zスコア標準化":
        df_scaled[numeric_cols] = (df[numeric_cols] - df[numeric_cols].mean()) / df[numeric_cols].std()
    elif method == "最大絶対値スケーリング":
        df_scaled[numeric_cols] = df[numeric_cols] / df[numeric_cols].abs().max()
    
    return df_scaled

主なポイント

  • df.select_dtypes(include='number') を使って 数値型の列だけ を選択。
  • 元の DataFrame は copy() で複製し、非数値列を維持。
  • エラーを起こす列には触れません。

この関数を使えば、日時や文字列を含む DataFrame に対しても安全にスケーリングを適用できます。

必要に応じて、対象とする列を明示的に指定できるようにもできますが、今の目的にはこの自動判定が便利です。
他にもカテゴリ変数の処理など追加したい要件はありますか?

user:

ありがとうございます。では、上記のコードをベースに、エラーを起こす行は削除するような関数に書き換えてください。

assistant:

承知しました。「スケーリング処理でエラーが起こる行は削除し、正常にスケーリングできる行だけを残す」ように関数を修正します。

以下のように、数値列だけを対象にしつつ、行単位でスケーリング時に NaN や無限大 (inf) が発生するようなものも含めて除外する形が実装として適しています。

def scale_data(df, method):
    df_scaled = df.copy()
    numeric_cols = df.select_dtypes(include='number').columns

    try:
        if method == "Min-Max 正規化":
            df_scaled[numeric_cols] = (df[numeric_cols] - df[numeric_cols].min()) / (df[numeric_cols].max() - df[numeric_cols].min())
        elif method == "Zスコア標準化":
            df_scaled[numeric_cols] = (df[numeric_cols] - df[numeric_cols].mean()) / df[numeric_cols].std()
        elif method == "最大絶対値スケーリング":
            df_scaled[numeric_cols] = df[numeric_cols] / df[numeric_cols].abs().max()
    except Exception as e:
        print(f"スケーリング中にエラーが発生しました: {e}")

    # 数値列のうち、NaN や inf を含む行を削除
    df_scaled = df_scaled.replace([float('inf'), float('-inf')], pd.NA)
    df_scaled = df_scaled.dropna(subset=numeric_cols)

    return df_scaled

この関数のポイント

  • select_dtypes(include='number') で数値列を選択。
  • スケーリング後に、infNaNpd.NA に置き換えてから dropna() で行削除。
  • 非数値列(文字列・日時など)はそのまま維持。
  • スケーリング自体で予期せぬエラーが起こる場合に備え、try-except を追加(ただし、個々の行ごとの例外処理ではなく列単位の一括処理の中での例外キャッチです)。

必要であれば、「元のインデックスを維持したい」や「削除した行のログも残したい」といった機能も追加できますが、まずはこの基本形からで問題ないかと思います。

この動作でご希望に沿っていますか?

user:

ありがとうございます。先ほどは、「エラーが起こる列はそのまま残して、エラーを起こさない列だけ加工するような関数」と言いましたが、今度は、「エラーが起こる列は削除して、エラーを起こさない列だけ残して、加工するような関数」にしてください。

assistant:

了解しました。
今回は「エラーが起こる列は削除し、スケーリング可能な列だけを残して加工する」関数に書き換えます。

ポイントは以下の通りです:

  • 数値列の中でスケーリングが可能なものだけを対象にする
    (例えば std=0 のように分母が 0 になる列や NaN を含む列は除外)
  • 非数値列やスケーリング時にエラーが起こる列は削除

✅ 修正版コード:

import pandas as pd

def scale_data(df, method):
    df_scaled = pd.DataFrame(index=df.index)  # 結果を入れるDataFrame
    numeric_df = df.select_dtypes(include='number')

    for col in numeric_df.columns:
        try:
            series = numeric_df[col]
            if method == "Min-Max 正規化":
                scaled = (series - series.min()) / (series.max() - series.min())
            elif method == "Zスコア標準化":
                scaled = (series - series.mean()) / series.std()
            elif method == "最大絶対値スケーリング":
                scaled = series / series.abs().max()
            else:
                scaled = series  # methodが不明な場合はそのまま
            # NaN や inf がある列は除外
            if scaled.isnull().any() or scaled.isin([float('inf'), float('-inf')]).any():
                continue
            df_scaled[col] = scaled
        except Exception:
            continue  # スケーリングで例外が出た列はスキップ

    return df_scaled

特徴

  • スケーリングできた列のみ結果に追加
  • スケーリングできなかった列(例:定数列、NaN含む列など)は削除
  • 非数値列は最初から対象にせず、結果にも含まれません。

このようにすると、常にエラーのないきれいな数値データだけが得られるようになります。

必要であれば、スケーリングできなかった列名をログとして返すようにもできますが、まずはこのベースで問題ないでしょうか?

user:

返ってくるのが空のデータになってしまいます。

assistant:

ありがとうございます。ご指摘のとおり、すべての列でスケーリング結果に NaNinf が1つでも含まれるとその列を除外するため、厳しすぎて空になる可能性があります。

以下のように改善して、実用上問題ないスケーリング結果が得られる列だけを残すように緩和しつつ、std=0max=0 などスケーリングが明らかに無効な列のみ除外する設計に修正します。


✅ 改良版:空になりにくい柔軟な関数

import pandas as pd

def scale_data(df, method):
    df_scaled = pd.DataFrame(index=df.index)
    numeric_df = df.select_dtypes(include='number')

    for col in numeric_df.columns:
        series = numeric_df[col]
        try:
            if method == "Min-Max 正規化":
                min_val = series.min()
                max_val = series.max()
                if min_val == max_val:
                    continue  # 定数列はスキップ
                scaled = (series - min_val) / (max_val - min_val)

            elif method == "Zスコア標準化":
                std_val = series.std()
                if std_val == 0:
                    continue  # 定数列はスキップ
                scaled = (series - series.mean()) / std_val

            elif method == "最大絶対値スケーリング":
                max_abs = series.abs().max()
                if max_abs == 0:
                    continue  # 全て0の列などはスキップ
                scaled = series / max_abs

            else:
                continue  # 不明なmethodはスキップ

            df_scaled[col] = scaled

        except Exception as e:
            print(f"{col} のスケーリングでエラー: {e}")
            continue

    return df_scaled

✅ この修正版の特徴

  • std == 0max == 0 の定数列はスキップ。
  • NaNinf を一律排除するのではなく、「スケーリングが数学的に意味をなさない列」だけ除外。
  • 必要なら df_scaled に残らなかった列を別にリストアップする処理も追加可能です。

試してみて、意図通りの列が残るようになったか確認してみてください。
必要があれば、元の非数値列をあとで結合する方法も案内できます。

user:

ありがとうございます。では、次の手順に変えてください。

1、上から順に「行」を見ていき、「数字を含まない行」と「数字を含む行」の区別をします。一番上の「数字を含む行」を発見したら、その1つ上の「数字を含まない行」を、列ラベルが書かれた行とみなします。そこから下は「数字を含む行」のみを取得し、「数字を含まない行」は削除します。

2、左から順に「列」を見ていき、「数字を含まない列」と「数字を含む列」の区別をします。一番左の「数字を含む行」を発見したら、その1つ左の「数字を含まない行」を、行ラベル(インデックス)が書かれた行とみなします。そこから右は「数字を含む行」のみを取得し、「数字を含まない行」は削除します。

assistant:

了解しました。
あなたの手順を実装すると、Excelなどで作られた表形式のDataFrameにありがちな「タイトル行や行ラベルがデータ内に含まれている形式」に柔軟に対応できるようになります。

以下は、あなたの指定した 手順1・2の両方を順に実行する関数です。


✅ 実装コード

import pandas as pd
import numpy as np

def extract_numeric_table(df_original):
    df = df_original.copy()

    # Step 1: 「数字を含む行」を上から探す
    numeric_row_idx = None
    for i in range(len(df)):
        # 数値が含まれるかチェック(1つでも数値がある)
        if pd.to_numeric(df.iloc[i], errors='coerce').notna().any():
            numeric_row_idx = i
            break

    if numeric_row_idx is None or numeric_row_idx == 0:
        raise ValueError("数値を含む行が見つからない、または先頭行が数値行のため、列ラベルが特定できません。")

    # 列ラベルの設定
    new_header = df.iloc[numeric_row_idx - 1]
    df = df.iloc[numeric_row_idx:].copy()
    df.columns = new_header
    df.reset_index(drop=True, inplace=True)

    # Step 2: 「数字を含む列」を左から探す
    numeric_col_idx = None
    for j in range(df.shape[1]):
        # 数値が含まれるかチェック
        if pd.to_numeric(df.iloc[:, j], errors='coerce').notna().any():
            numeric_col_idx = j
            break

    if numeric_col_idx is None or numeric_col_idx == 0:
        raise ValueError("数値を含む列が見つからない、または先頭列が数値列のため、行ラベルが特定できません。")

    # 行ラベルの設定
    df.index = df.iloc[:, numeric_col_idx - 1]
    df = df.iloc[:, numeric_col_idx:]

    # インデックスを適切な型に変換(可能なら)
    try:
        df.index = pd.to_numeric(df.index, errors='ignore')
    except:
        pass

    # 各セルを数値に変換(できないものはNaN)
    df = df.apply(pd.to_numeric, errors='coerce')

    return df

✅ この関数の働き

  • Step 1(行方向):

    • 上から見て最初に「数字を含む行」を発見。
    • その1つ上を列ラベルと見なし、それより下の「数字を含む行」だけを残す。
  • Step 2(列方向):

    • 左から見て最初に「数字を含む列」を発見。
    • その1つ左を行ラベル(インデックス)と見なし、それより右の数値列だけを残す。

✅ 使い方例

df_raw = pd.read_excel("example.xlsx", header=None)  # ヘッダーなしで読み込み
df_clean = extract_numeric_table(df_raw)
print(df_clean)

この変換を行ったあとは、先ほどの scale_data() 関数などもそのまま適用できるようになります。
この仕様で目的を達成できそうですか?

user:

「数字を含まない行」と「数字を含む行」の代わりに、「数字を半分未満しか含まない行」と「数字を半分以上含む行」、「数字を含まない列」と「数字を含む列」の代わりに、「数字を半分未満しか含まない列」と「数字を半分以上含む列」に書き換えてください。

assistant:

了解しました。
ルールを以下のように読み替えて処理します:


🔁 変更点の解釈

  • 「数字を含む」 → 「その行/列の半分以上が数値に変換可能なセル」
  • 「数字を含まない」 → 「半分未満しか数値に変換できないセルがある」

✅ 改訂版:extract_numeric_table() 関数

import pandas as pd
import numpy as np

def extract_numeric_table(df_original):
    df = df_original.copy()

    # Step 1: 「数字を半分以上含む行」を探す(上から)
    numeric_row_idx = None
    for i in range(len(df)):
        row = df.iloc[i]
        numeric_ratio = pd.to_numeric(row, errors='coerce').notna().sum() / len(row)
        if numeric_ratio >= 0.5:
            numeric_row_idx = i
            break

    if numeric_row_idx is None or numeric_row_idx == 0:
        raise ValueError("数値を半分以上含む行が見つからないか、先頭行が該当するため、列ラベルが特定できません。")

    # 列ラベルを設定(その1つ上の行)
    new_header = df.iloc[numeric_row_idx - 1]
    df = df.iloc[numeric_row_idx:].copy()
    df.columns = new_header
    df.reset_index(drop=True, inplace=True)

    # Step 2: 「数字を半分以上含む列」を探す(左から)
    numeric_col_idx = None
    for j in range(df.shape[1]):
        col = df.iloc[:, j]
        numeric_ratio = pd.to_numeric(col, errors='coerce').notna().sum() / len(col)
        if numeric_ratio >= 0.5:
            numeric_col_idx = j
            break

    if numeric_col_idx is None or numeric_col_idx == 0:
        raise ValueError("数値を半分以上含む列が見つからないか、先頭列が該当するため、行ラベルが特定できません。")

    # 行ラベルを設定(その1つ左の列)
    df.index = df.iloc[:, numeric_col_idx - 1]
    df = df.iloc[:, numeric_col_idx:]

    # インデックス型変換(可能なら)
    try:
        df.index = pd.to_numeric(df.index, errors='ignore')
    except:
        pass

    # セルを数値に変換(できないものはNaN)
    df = df.apply(pd.to_numeric, errors='coerce')

    return df

✅ 主なポイント(再確認)

  • pd.to_numeric(..., errors='coerce') で各セルが数値に変換できるかどうか判定。
  • **行・列の「数値比率」**が 0.5以上 であれば「数字を含む」とみなします。
  • 該当しない行・列は除外対象となります。

このようにしておけば、多少ノイズのある表(空欄や文字列が混在する表)でも、安定して実データを抽出できます。

必要に応じて「閾値(50%)をパラメータにする」なども可能ですが、この仕様でよろしいでしょうか?

user:

1行目は行ラベル、1列目はインデックス、と強制的に決めてしまって、それ以外で数字比率の低い列、数字比率の低い行を削除する関数を書いてください。

assistant:

了解しました。
今回は以下のルールで **「整形された表の中から数値比率の低い行・列を除外」**する関数を定義します。


✅ 処理ルール

  1. 1行目 → 列ラベルとして固定(除外せず保持)

  2. 1列目 → 行インデックスとして固定(除外せず保持)

  3. それ以外のセル領域(データ部分)で、行・列ごとに数値比率を計算

    • 50%未満の数値比率の行・列を除外
  4. 最後に 行インデックスと列ラベルを再設定、数値に変換


✅ 実装コード

import pandas as pd
import numpy as np

def clean_numeric_table(df_original, threshold=0.5):
    df = df_original.copy()

    # 1行目を列ラベルに設定
    df.columns = df.iloc[0]
    df = df.drop(index=0).reset_index(drop=True)

    # 1列目をインデックスに設定
    df.index = df.iloc[:, 0]
    df = df.drop(columns=df.columns[0])

    # 残りはデータ部(DataFrame) → 数値に変換できない部分はNaNにする
    df_numeric = df.apply(pd.to_numeric, errors='coerce')

    # 行ごとの数値比率を計算し、閾値未満の行を除去
    row_numeric_ratio = df_numeric.notna().mean(axis=1)
    df_numeric = df_numeric[row_numeric_ratio >= threshold]

    # 列ごとの数値比率を計算し、閾値未満の列を除去
    col_numeric_ratio = df_numeric.notna().mean(axis=0)
    df_numeric = df_numeric.loc[:, col_numeric_ratio >= threshold]

    return df_numeric

✅ 使用例

df_raw = pd.read_excel("example.xlsx", header=None)
df_clean = clean_numeric_table(df_raw)
print(df_clean)

🔄 オプション

  • threshold=0.5 を変更すれば、数値比率の厳しさを調整可能です。

    • 例:threshold=0.8 にすると、80%以上が数値でないと除外されます。

この仕様で問題なさそうですか?
必要であれば、除外された行・列のラベルも返すようにできます。

user:

ありがとうございます。最終的にこうなりました。

def clean_numeric_table(df_original, threshold=0.5):
    df = df_original.copy()

    # 1列目をインデックスに設定
    df.index = df.iloc[:, 0]
    df = df.drop(columns=df.columns[0])

    # 残りはデータ部(DataFrame) → 数値に変換できない部分はNaNにする
    df_numeric = df.apply(pd.to_numeric, errors="coerce")

    # 行ごとの数値比率を計算し、閾値未満の行を除去
    row_numeric_ratio = df_numeric.notna().mean(axis=1)
    df_numeric = df_numeric[row_numeric_ratio >= threshold]

    # 列ごとの数値比率を計算し、閾値未満の列を除去
    col_numeric_ratio = df_numeric.notna().mean(axis=0)
    df_numeric = df_numeric.loc[:, col_numeric_ratio >= threshold]

    return df_numeric

def scale_data(df, method):
    df = clean_numeric_table(df)
    if method == "Min-Max 正規化":
        return (df - df.min()) / (df.max() - df.min())
    elif method == "Zスコア標準化":
        return (df - df.mean()) / df.std()
    elif method == "最大絶対値スケーリング":
        return df / df.abs().max()
    else:
        return df

assistant:

とても良い整理だと思います!
関数が以下のようにしっかり分離・構造化されており、実用性が高いです:


✅ ポイント

  • clean_numeric_table()

    • 明確に「1列目がインデックス」という前提を持ちつつ、数値比率で不要な行・列を除外。
    • threshold もパラメータ化されていて柔軟性があります。
  • scale_data()

    • 前処理(クリーニング)を自動で行ってからスケーリング。
    • スケーリング手法を柔軟に切り替え可能。

🔄 1点だけアドバイス(任意)

もし 1列目がインデックスに適さないケース(例えば全NaNなど) に備えたい場合、clean_numeric_table() の先頭で以下のようなバリデーションを加えると安全です:

# 1列目をインデックスに設定(NaN率が高すぎる場合は警告)
if df.iloc[:, 0].notna().mean() < threshold:
    raise ValueError("1列目がインデックスとして適していない可能性があります。")

df.index = df.iloc[:, 0]
df = df.drop(columns=df.columns[0])

全体として、DataFrameに対する「前処理 + スケーリング」の典型パターンとして非常に良く仕上がっています。
このコードをどのような用途で使っていく予定ですか?

user:

ありがとうございます。先ほどのコードを改良して、「1列目の値に重複がある場合はインデックスとして使わない」「1行目の値に重複がある場合は列ラベルとして使わない」というふうに変更してください。

assistant:

承知しました。
以下のように改良すれば、「1列目の値に重複がある場合はインデックスとして使用せずデフォルトのまま」
**「1行目の値に重複がある場合は列ラベルとして使用せずデフォルトのまま」**になります。


✅ 改良版 clean_numeric_table

import pandas as pd
import numpy as np

def clean_numeric_table(df_original, threshold=0.5):
    df = df_original.copy()

    # --- 列ラベル設定(1行目の値がユニークなら使う) ---
    if df.iloc[0].is_unique:
        df.columns = df.iloc[0]
        df = df.drop(index=0).reset_index(drop=True)

    # --- インデックス設定(1列目の値がユニークなら使う) ---
    if df.iloc[:, 0].is_unique:
        df.index = df.iloc[:, 0]
        df = df.drop(columns=df.columns[0])

    # --- 数値変換 ---
    df_numeric = df.apply(pd.to_numeric, errors="coerce")

    # --- 数値比率が threshold 未満の行を削除 ---
    row_numeric_ratio = df_numeric.notna().mean(axis=1)
    df_numeric = df_numeric[row_numeric_ratio >= threshold]

    # --- 数値比率が threshold 未満の列を削除 ---
    col_numeric_ratio = df_numeric.notna().mean(axis=0)
    df_numeric = df_numeric.loc[:, col_numeric_ratio >= threshold]

    return df_numeric

✅ 説明

処理 条件 処理内容
列ラベルの設定 df.iloc[0].is_unique が True 1行目の値を列ラベルに。重複があれば何もしない。
インデックスの設定 df.iloc[:, 0].is_unique が True 1列目の値をインデックスに。重複があれば何もしない。
数値比率によるフィルタ 既存コードと同じ 50%以上が数値の行・列のみ残す

✅ 使い方例(同じ)

df_clean = clean_numeric_table(df_raw)

この修正で、重複のあるヘッダやインデックス列による不適切な設定を防止できます。
必要であれば、インデックスやカラムの設定に失敗した場合の警告ログ出力も追加可能です。追加したいですか?

user:

ありがとうございます。スケーリング前に、分散がゼロの列を除外する処理を加えていただけますか?

assistant:

はい、もちろんです!
スケーリング前に「分散がゼロの列(= 全ての値が同じ)」を除外する処理を scale_data() に追加します。


✅ 改良版 scale_data()(分散ゼロ列を除外)

def scale_data(df, method):
    df = clean_numeric_table(df)

    # --- 分散がゼロの列を除外(全ての値が同じ列) ---
    df = df.loc[:, df.std(ddof=0) > 0]

    if method == "Min-Max 正規化":
        return (df - df.min()) / (df.max() - df.min())
    elif method == "Zスコア標準化":
        return (df - df.mean()) / df.std()
    elif method == "最大絶対値スケーリング":
        return df / df.abs().max()
    else:
        return df

✅ 説明ポイント

  • df.std(ddof=0)不偏分散ではなく母分散(標本全体)を計算
  • > 0:**分散がゼロ(= 全ての値が同じ)**列を除外
  • スケーリング処理の前に適用しておくことで、無意味な列が結果に混ざるのを防げます

このようにしておけば、どのスケーリング手法でも「意味のない列」が排除された状態で処理されます。
さらに強化したい場合は「NaNが多すぎる列も除外」なども検討できますが、今の仕様で十分でしょうか?

user:

次のエラーが消えないのですが、何か解決法ありませんか?

/Users/ikemen/streamlit-app/venv/lib/python3.10/site-packages/scipy/stats/\_stats\_py.py:4781: ConstantInputWarning: An input array is constant; the correlation coefficient is not defined.

assistant:

このエラーは scipy.stats の関数(特に pearsonr などの相関係数の計算)を使っているときに、入力配列が定数(すべて同じ値)だった場合に出る警告です:

ConstantInputWarning: An input array is constant; the correlation coefficient is not defined.

✅ 原因

例えば以下のようなデータに対して相関を取ろうとすると出ます:

from scipy.stats import pearsonr

x = [1, 1, 1, 1]
y = [1, 2, 3, 4]

pearsonr(x, y)  # ← ここで警告が出る(xが定数だから)

✅ 解決策

相関係数を取る前に、「定数列(分散0)」を除外するチェックを追加します。以下は典型的な対処方法です:

import numpy as np
from scipy.stats import pearsonr

def safe_pearsonr(x, y):
    # 定数列かどうかチェック
    if np.std(x) == 0 or np.std(y) == 0:
        return np.nan  # または 0 や None など
    return pearsonr(x, y)[0]  # 相関係数のみ返す

✅ もし DataFrame 全体で相関行列を取りたい場合

# 分散がゼロの列を除外
df_corr = df.loc[:, df.std() > 0]

# 相関行列を計算(警告が出ない)
correlation_matrix = df_corr.corr()

✅ 警告を完全に抑えたい場合(自己責任)

開発中だけ一時的に警告を非表示にしたい場合:

import warnings
warnings.filterwarnings("ignore", category=UserWarning)

ただし、本番コードでは非推奨です(根本の原因に対処する方が安全)。


✅ 対処のまとめ

方法 内容
分散ゼロ列の除外 df.std() > 0 で列をフィルタする
相関計算前のチェック safe_pearsonr() のような関数を使う
警告を非表示(非推奨) warnings.filterwarnings() を使う

よければ、どの関数でこのエラーが出ているのか教えていただければ、よりピンポイントな対策を提示できます。

user:

DataFrameの列名から、改行や空白などの文字を取り除く関数を書いてください。

assistant:

こちらが、Pandas DataFrame の列名から改行・空白などの余分な文字を取り除く関数です:


✅ 列名クリーニング関数

def clean_column_names(df):
    df = df.copy()
    df.columns = (
        df.columns.astype(str)               # 念のためすべて文字列に変換
        .str.strip()                         # 前後の空白・改行を除去
        .str.replace(r"\s+", "_", regex=True)  # 空白・改行・タブなどをすべて「_」に置換
    )
    return df

✅ 例

import pandas as pd

# テスト用の DataFrame
df = pd.DataFrame({
    "  名前\n": [1, 2],
    " 年齢 ": [30, 40],
    "住所\t ": ["Tokyo", "Osaka"]
})

print("Before:\n", df.columns.tolist())

df_clean = clean_column_names(df)

print("After:\n", df_clean.columns.tolist())

出力:

Before:
['  名前\n', ' 年齢 ', '住所\t ']
After:
['名前', '年齢', '住所']

✅ 補足

  • \s+ は「空白・改行・タブ」すべてにマッチするので、表形式データの前処理で非常に有効です。
  • 必要に応じて .str.lower() などで小文字化することも可能です。

この関数を clean_numeric_table()scale_data() に組み込むこともできますが、分けておく方が再利用性が高いです。組み込みたい場合はご希望に応じて調整します。

user:

ありがとうございます。今日はこの辺でOKです。今日の会話をブログに残したいのですが、タイトル案をいくつか提案していただいてよろしいでしょうか?

assistant:

もちろんです!
本日の内容は「データクリーニング」「スケーリング」「エラー処理」「列名整形」などが中心でしたので、以下のようなブログタイトル案を提案します:


✅ 実用的なタイトル案(読者の課題解決にフォーカス)

  1. 「Pandasデータ整形大全:文字列ヘッダ・重複・スケーリング前の下処理まで」
  2. 「DataFrameがうまく扱えない?Pandasで列・行の自動クリーニング&正規化」
  3. 「ゼロ分散・重複ラベル・非数値列…“困った表”をPythonで扱う方法まとめ」
  4. 「Pandas × データ前処理:列ラベル判定からスケーリングまで自動でやる」
  5. 「初心者でも安心!StreamlitやPandasでよく出るエラーとその対処法」

✅ 少しキャッチーな方向のタイトル案

  1. 「これは助かる!Pandasで“汚い表”をキレイに整える自動関数たち」
  2. 「Pandas職人の技:見づらい表を一発で使える形にする前処理Tips」
  3. 「ChatGPTと一緒に作る、DataFrameスケーリングの最強前処理関数」

内容の雰囲気や読者層に合わせて調整できますので、「もう少しカジュアルに」「専門用語を減らしたい」など、ご希望があれば教えてください!

user:

「Pandas × データ前処理:列ラベル判定からスケーリングまで自動でやる」でいきたいと思います。最後に、今日の会話を詳しくまとめてください。

assistant:

ありがとうございます!
以下に、本日の会話をブログ記事として活用できるよう、構成とともに詳しくまとめました。


Pandas × データ前処理:列ラベル判定からスケーリングまで自動でやる

🔍 背景

データ分析や機械学習の前段階として、「表形式データのクリーニング」は必須です。しかし現実には、次のような「使いづらい表」に遭遇することが多々あります:

  • 見出しやインデックスがどこか分からない
  • 数字と文字列が混ざっている
  • 改行や空白が列名に含まれている
  • 同じ値しかない列が含まれていてスケーリングでエラーが出る

これらを自動的に判定・処理し、数値データに対するスケーリングまで行う一連の処理を関数として整理しました。


🛠 実装ステップ

① 自動クリーニング関数 clean_numeric_table

目的:

  • 表の1列目・1行目をそれぞれインデックス・列ラベルとして扱う
  • 数値の少ない行・列を除外
  • 重複する行ラベルや列ラベルがある場合は無視
  • 数値に変換できない部分はNaNにする
def clean_numeric_table(df_original, threshold=0.5):
    df = df_original.copy()

    # 列ラベル処理(1行目)
    first_row = df.iloc[0]
    if first_row.duplicated().any():
        header = False
    else:
        header = True
        df.columns = first_row
        df = df[1:]

    # インデックス処理(1列目)
    first_col = df.iloc[:, 0]
    if first_col.duplicated().any():
        index_set = False
    else:
        index_set = True
        df.index = first_col
        df = df.iloc[:, 1:]

    # 数値変換(できないものは NaN に)
    df_numeric = df.apply(pd.to_numeric, errors="coerce")

    # 数値比率が低い行・列を除去
    df_numeric = df_numeric[df_numeric.notna().mean(axis=1) >= threshold]
    df_numeric = df_numeric.loc[:, df_numeric.notna().mean(axis=0) >= threshold]

    return df_numeric

② スケーリング関数 scale_data

目的:

  • 前処理関数でクリーニングされたDataFrameを、指定の方法でスケーリング

  • 分散が0の列(=すべて同じ値)を除去してから処理

  • メソッドは以下をサポート:

    • Min-Max 正規化
    • Zスコア標準化
    • 最大絶対値スケーリング
def scale_data(df, method):
    df = clean_numeric_table(df)

    # 分散がゼロの列を除外
    df = df.loc[:, df.std(ddof=0) > 0]

    if method == "Min-Max 正規化":
        return (df - df.min()) / (df.max() - df.min())
    elif method == "Zスコア標準化":
        return (df - df.mean()) / df.std()
    elif method == "最大絶対値スケーリング":
        return df / df.abs().max()
    else:
        return df

③ 列名クリーニング関数 clean_column_names

目的:

  • 改行・空白・タブなどを「_」に置き換えて列名を整形
def clean_column_names(df):
    df = df.copy()
    df.columns = (
        df.columns.astype(str)
        .str.strip()
        .str.replace(r"\s+", "_", regex=True)
    )
    return df

⚠️ エラー対策:ConstantInputWarning

相関係数などを計算する際、すべて同じ値の列を入力すると次のような警告が出ます:

ConstantInputWarning: An input array is constant; the correlation coefficient is not defined.

解決策:

  • 分散がゼロの列を除外
  • pearsonr を使う場合は事前にチェック

✅ まとめ

今回作成した関数群を使えば、次のような「ぐちゃぐちゃな表」でも:

  • 数値以外の情報を自動で判別して除去
  • スケーリング前の前処理も自動で実施
  • 列名やラベルの整形も自動で済む

というふうに、実践的な前処理フローを自動化できます。


記事の終わりには、コードをGitHubやColabノートブックで公開するのもおすすめです。必要であれば、記事の構成テンプレートもお手伝いできますよ!

ご自身のデータ前処理の手間を大幅に減らすために、ぜひご活用ください。

user:

ありがとうございました。今後もよろしくお願いします。

assistant:

こちらこそ、ありがとうございました!
いつでもお気軽にご相談ください。今後のデータ分析やブログ執筆も応援しています。引き続きよろしくお願いします!

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?