pandasでExcel風列名を扱う＆列の値差分チェックを柔軟に行うPython関数まとめ

Posted at 2026-04-25

user:

２つのpandas dataframeを引数とするPython関数を考えます。違っている列を抜き出す関数を書いてください。

assistant:

２つのpandas DataFrameを比較し、違っている列名だけを抽出する関数の例を示します。

import pandas as pd

def find_diff_columns(df1: pd.DataFrame, df2: pd.DataFrame) -> list:
    """
    ２つのDataFrameにおいて値が異なる列の名前をリストで返す関数

    前提：
    - df1とdf2はインデックスが一致していること
    - 列数や列名が一致していること（あるいは比較したい列が同じであること）

    Args:
        df1 (pd.DataFrame): 比較対象のDataFrame1
        df2 (pd.DataFrame): 比較対象のDataFrame2

    Returns:
        list: 値が異なる列名のリスト
    """

    # 共通の列だけを抽出（必要に応じて）
    common_cols = df1.columns.intersection(df2.columns)

    diff_cols = []
    for col in common_cols:
        # 両方の列が等しいか確認。等しくなければ追加。
        if not df1[col].equals(df2[col]):
            diff_cols.append(col)
    return diff_cols

使い方の例

df1 = pd.DataFrame({
    'A': [1,2,3],
    'B': [4,5,6],
    'C': [7,8,9]
})

df2 = pd.DataFrame({
    'A': [1,2,30],
    'B': [4,5,6],
    'C': [70,8,9]
})

print(find_diff_columns(df1, df2))
# 出力: ['A', 'C']

この関数はインデックスと列名が対応している前提で動作します。もしインデックスや列が異なる場合は適宜調整してください。

user:

１つの pandas dataframe を引数とする関数を考えます。第２の引数Nを指定すると、その行を列名とし、それより上の行を無視し、それより下の行をデータとする pandas dataframe を返す関数を書いてください。デフォルトは、先頭行を列名にするようにしてください。

assistant:

了解しました。pandas DataFrame と行番号（または行ラベル）を受け取り、指定した行の内容を列名（ヘッダー）にして、それより上の行を捨て、指定行の次の行以降をデータとして扱う新しい DataFrame を返す関数の例を示します。

ここでは、引数Nは行番号（0から数えるインデックス）とします。Nのデフォルト値は0で、先頭行を列名として扱います。

import pandas as pd

def reheader_df(df: pd.DataFrame, N: int = 0) -> pd.DataFrame:
    """
    DataFrameのN行目を新しい列名として使い、それより上の行を破棄、N行目の次の行以降をデータとした新しいDataFrameを返す。

    Args:
        df (pd.DataFrame): 元のDataFrame
        N (int): 列名にする行番号（0始まり）

    Returns:
        pd.DataFrame: 新しい列名を持つDataFrame
    """

    # 新しい列名
    new_columns = df.iloc[N].tolist()
    # N行目より下のデータ部分（N+1行目以降）
    new_data = df.iloc[N+1:].reset_index(drop=True)
    # 列名を変更
    new_data.columns = new_columns
    return new_data

使用例

df = pd.DataFrame([
    ['ignore1', 'ignore2', 'ignore3'],
    ['col1', 'col2', 'col3'],
    [10, 20, 30],
    [40, 50, 60],
])

print("元のdf:")
print(df)

new_df = reheader_df(df, N=1)
print("\n再ヘッダー後のdf:")
print(new_df)

出力：

元のdf:
         0       1       2
0  ignore1  ignore2  ignore3
1     col1     col2     col3
2       10       20       30
3       40       50       60

再ヘッダー後のdf:
  col1 col2 col3
0   10   20   30
1   40   50   60

もし N が指定されなければ先頭行（0行目）をヘッダーとして扱います。必要に応じて検証や例外処理を付加してください。

user:

１つの pandas dataframe を引数とする関数を考えます。エクセルの列名は A, B, ..., Z, AA, AB, ... のように続きますが、この「エクセルの列名」を入れたときに、対応する「pandas dataframeの列名」を返す関数を書いてください。整数インデックスを返すか、df.columns の中の値を返すか選択できるようにしてください。

assistant:

了解しました。

Excelの列名（例: 'A', 'B', ..., 'Z', 'AA', 'AB', ...）を受け取り、その列がpandas DataFrameの何番目の列に対応するかを返す関数を書きます。

オプション引数 return_index=True のときは整数の0始まりの列インデックスを返す
return_index=False のときは df.columns の中身（実際の列名）を返す

import pandas as pd
import string

def excel_col_to_df_col(df: pd.DataFrame, excel_col: str, return_index: bool = True):
    """
    Excelの列名（例: 'A', 'Z', 'AA'）から対応するDataFrameの列位置を返す。

    Args:
        df (pd.DataFrame): 対象のDataFrame
        excel_col (str): Excelスタイルの列名（例: 'A', 'AB'）
        return_index (bool): True の場合は整数位置を返す。Falseの場合は df.columns の値を返す。

    Returns:
        int or label: 対応する列インデックスまたは列名

    Raises:
        ValueError: 対応する列が範囲外もしくは不正な入力の場合
    """

    def excel_col_to_index(col_str):
        col_str = col_str.upper()
        result = 0
        for c in col_str:
            if c not in string.ascii_uppercase:
                raise ValueError(f"Invalid character '{c}' in Excel column name.")
            # 'A'は1として数えるので - 1 は最後にやる
            result = result * 26 + (ord(c) - ord('A') + 1)
        return result - 1  # 0-indexedに変換

    idx = excel_col_to_index(excel_col)

    if idx < 0 or idx >= len(df.columns):
        raise ValueError(f"Excel列名 {excel_col} はDataFrameの列範囲を超えています。")

    if return_index:
        return idx
    else:
        return df.columns[idx]

使用例

df = pd.DataFrame({
    'first': [1, 2],
    'second': [3, 4],
    'third': [5, 6],
    'fourth': [7, 8],
    'fifth': [9, 10],
    'sixth': [11,12]
})

print(excel_col_to_df_col(df, "A"))       # 0
print(excel_col_to_df_col(df, "C"))       # 2
print(excel_col_to_df_col(df, "F"))       # 5
print(excel_col_to_df_col(df, "F", False))  # 'sixth'

print(excel_col_to_df_col(df, "AA"))      # エラー（列数不足）

必要に応じてExcel列名のバリデーションや型チェックなどを追加してください。

user:

先ほど作っていただいた、次の関数をベースに、改良した関数の完全コードを書いてください。列名が重複する場合、列名の最後に _1, _2 などの語尾を付けてください。

import pandas as pd

def reheader_df(df: pd.DataFrame, N: int = 0) -> pd.DataFrame:
    """
    DataFrameのN行目を新しい列名として使い、それより上の行を破棄、N行目の次の行以降をデータとした新しいDataFrameを返す。

    Args:
        df (pd.DataFrame): 元のDataFrame
        N (int): 列名にする行番号（0始まり）

    Returns:
        pd.DataFrame: 新しい列名を持つDataFrame
    """

    # 新しい列名
    new_columns = df.iloc[N].tolist()
    # N行目より下のデータ部分（N+1行目以降）
    new_data = df.iloc[N+1:].reset_index(drop=True)
    # 列名を変更
    new_data.columns = new_columns
    return new_data

assistant:

import pandas as pd

def reheader_df(df: pd.DataFrame, N: int = 0) -> pd.DataFrame:
    """
    DataFrameのN行目を新しい列名として使い、それより上の行を破棄、N行目の次の行以降をデータとした新しいDataFrameを返す。
    列名が重複する場合は、それぞれに _1, _2 ... の語尾を付けて区別する。

    Args:
        df (pd.DataFrame): 元のDataFrame
        N (int): 列名にする行番号（0始まり）

    Returns:
        pd.DataFrame: 新しい列名を持つDataFrame
    """

    # N行目を新しい列名として取得
    new_columns_raw = df.iloc[N].tolist()

    # 列名の重複を解消する処理
    new_columns = []
    count = {}
    for col in new_columns_raw:
        col_str = str(col)  # 念のため文字列化

        if col_str not in count:
            count[col_str] = 0
            new_columns.append(col_str)
        else:
            count[col_str] += 1
            new_columns.append(f"{col_str}_{count[col_str]}")

    # N行目より下のデータ部分（N+1行目以降）
    new_data = df.iloc[N+1:].reset_index(drop=True)

    # 新しい列名をセット
    new_data.columns = new_columns

    return new_data

解説

count 辞書で各列名の出現回数をカウント。
最初に出現した列はそのままにし、
2回目以降は _<番号> をつけて連番を振る仕様。

使用例

df = pd.DataFrame([
    ['ignore1', 'ignore2', 'ignore3', 'ignore4'],
    ['col', 'col', 'col', 'col'],
    [10, 20, 30, 40],
    [50, 60, 70, 80],
])

print("元のdf:")
print(df)

new_df = reheader_df(df, N=1)

print("\n再ヘッダー後のdf:")
print(new_df)

出力例：

元のdf:
         0        1        2        3
0  ignore1  ignore2  ignore3  ignore4
1      col      col      col      col
2       10       20       30       40
3       50       60       70       80

再ヘッダー後のdf:
  col col_1 col_2 col_3
0  10    20    30    40
1  50    60    70    80

必要に応じて、データの型などに合わせて調整してください。

user:

先ほど作っていただいた find_diff_columns 関数について、改良した完全コードを書いてください。列の「エクセル関数」ではなく「値」を比較してください。

import pandas as pd

def find_diff_columns(df1: pd.DataFrame, df2: pd.DataFrame) -> list:
    """
    ２つのDataFrameにおいて値が異なる列の名前をリストで返す関数

    前提：
    - df1とdf2はインデックスが一致していること
    - 列数や列名が一致していること（あるいは比較したい列が同じであること）

    Args:
        df1 (pd.DataFrame): 比較対象のDataFrame1
        df2 (pd.DataFrame): 比較対象のDataFrame2

    Returns:
        list: 値が異なる列名のリスト
    """

    # 共通の列だけを抽出（必要に応じて）
    common_cols = df1.columns.intersection(df2.columns)

    diff_cols = []
    for col in common_cols:
        # 両方の列が等しいか確認。等しくなければ追加。
        if not df1[col].dropna().equals(df2[col].dropna()):
            diff_cols.append(col)
    return diff_cols

assistant:

import pandas as pd
import numpy as np

def find_diff_columns(df1: pd.DataFrame, df2: pd.DataFrame) -> list:
    """
    ２つのDataFrameにおいて、列の「値」が異なる列名をリストで返す関数。

    前提：
    - df1とdf2はインデックスが一致していること（順序と値）
    - 比較対象の列名が共通であること

    Args:
        df1 (pd.DataFrame): 比較対象のDataFrame1
        df2 (pd.DataFrame): 比較対象のDataFrame2

    Returns:
        list: 値が異なる列名のリスト
    """

    common_cols = df1.columns.intersection(df2.columns)
    diff_cols = []

    for col in common_cols:
        s1 = df1[col]
        s2 = df2[col]

        # インデックスが異なる場合は位置で比較
        if not s1.index.equals(s2.index):
            # インデックスを無視して比較（位置ベース）
            s1_values = s1.to_numpy()
            s2_values = s2.to_numpy()
        else:
            # インデックスが同じならそのまま比較
            s1_values = s1.values
            s2_values = s2.values

        # NaNの取扱い（NaN同士は等しいとみなす）
        equal_mask = (s1_values == s2_values) | (pd.isna(s1_values) & pd.isna(s2_values))

        # 値が全て等しいか判定
        if len(equal_mask) == 0 or not np.all(equal_mask):
            diff_cols.append(col)

    return diff_cols

ポイント

.equals() は NaN を同じ場所で両方持っている場合に等しいと判定しますが、NaNの扱いが気になる場合には上記のように位置ベースで直接比較します。
インデックスが異なる場合は位置ベースに比較を落としているため、もしインデックスを重視する場合は条件を変更してください。
要素単位で NaN同士は等しいとみなすようにしています。

使用例

df1 = pd.DataFrame({
    'A': [1, 2, np.nan],
    'B': [4, 5, 6],
    'C': [7, np.nan, 9],
})

df2 = pd.DataFrame({
    'A': [1, 2, np.nan],
    'B': [4, 5, 10],
    'C': [7, np.nan, 9],
})

print(find_diff_columns(df1, df2))  # Output: ['B']

この例では、B列だけ値が異なるので ['B'] が返ります。

user:

pandas dataframe を引数とするPython関数を考えます。値に文字列 "=" を含む列だけ抜き出す関数の完全コードを書いてください。

assistant:

import pandas as pd

def extract_columns_with_equal_sign(df: pd.DataFrame) -> pd.DataFrame:
    """
    DataFrameの中で値に文字列 '=' を含む列だけを抜き出して返す関数。

    Args:
        df (pd.DataFrame): 元のDataFrame

    Returns:
        pd.DataFrame: '=' を含む値がある列だけのDataFrame
    """
    cols_with_equal = []

    for col in df.columns:
        # 対象列の値を文字列化して、'='を含むかチェック
        # NaNは除外されるのでfillnaで空文字列に変換
        ser = df[col].fillna('').astype(str)
        if ser.str.contains('=').any():
            cols_with_equal.append(col)

    # 該当列だけ抽出して返す
    return df.loc[:, cols_with_equal]

使い方例

df = pd.DataFrame({
    'A': ['=SUM(A1:A5)', 'test', 'value'],
    'B': ['hello', 'world', 'no equals'],
    'C': ['=A1+1', 'data', None],
})

result = extract_columns_with_equal_sign(df)
print(result)

出力は列 A と C のみ抽出されます。

user:

先ほど作っていただいた find_diff_columns 関数について、改良した完全コードを書いてください。オプション引数を追加して、先頭top_n列だけの一致を見るようにしてください。デフォルトはtop_n = 1000にしてください。

import pandas as pd
import numpy as np

def find_diff_columns(df1: pd.DataFrame, df2: pd.DataFrame) -> list:
    """
    ２つのDataFrameにおいて、列の「値」が異なる列名をリストで返す関数。

    前提：
    - df1とdf2はインデックスが一致していること（順序と値）
    - 比較対象の列名が共通であること

    Args:
        df1 (pd.DataFrame): 比較対象のDataFrame1
        df2 (pd.DataFrame): 比較対象のDataFrame2

    Returns:
        list: 値が異なる列名のリスト
    """

    common_cols = df1.columns.intersection(df2.columns)
    diff_cols = []

    for col in common_cols:
        s1 = df1[col]
        s2 = df2[col]

        # インデックスが異なる場合は位置で比較
        if not s1.index.equals(s2.index):
            # インデックスを無視して比較（位置ベース）
            s1_values = s1.to_numpy()
            s2_values = s2.to_numpy()
        else:
            # インデックスが同じならそのまま比較
            s1_values = s1.values
            s2_values = s2.values

        # NaNの取扱い（NaN同士は等しいとみなす）
        equal_mask = (s1_values == s2_values) | (pd.isna(s1_values) & pd.isna(s2_values))

        # 値が全て等しいか判定
        if len(equal_mask) == 0 or not np.all(equal_mask):
            diff_cols.append(col)

    return diff_cols

assistant:

import pandas as pd
import numpy as np

def find_diff_columns(df1: pd.DataFrame, df2: pd.DataFrame, top_n: int = 1000) -> list:
    """
    ２つのDataFrameにおいて、列の「値」が異なる列名をリストで返す関数。
    オプション引数 top_n により、先頭top_n行のみで比較する。
    
    前提：
    - df1とdf2はインデックスが一致していること（順序と値）
    - 比較対象の列名が共通であること

    Args:
        df1 (pd.DataFrame): 比較対象のDataFrame1
        df2 (pd.DataFrame): 比較対象のDataFrame2
        top_n (int): 比較に使う先頭行数（省略時1000）

    Returns:
        list: 値が異なる列名のリスト
    """

    common_cols = df1.columns.intersection(df2.columns)
    diff_cols = []

    # 比較対象の行数を制限（最大top_nまたは実際の最小行数）
    rows_to_compare = min(top_n, len(df1), len(df2))

    for col in common_cols:
        s1 = df1[col].iloc[:rows_to_compare]
        s2 = df2[col].iloc[:rows_to_compare]

        # インデックスが異なる場合は位置ベースで比較
        if not s1.index.equals(s2.index):
            s1_values = s1.to_numpy()
            s2_values = s2.to_numpy()
        else:
            s1_values = s1.values
            s2_values = s2.values

        # NaN同士は等しいとみなす論理配列作成
        equal_mask = (s1_values == s2_values) | (pd.isna(s1_values) & pd.isna(s2_values))

        # １つでも異なる値があればその列名を追加
        if len(equal_mask) == 0 or not np.all(equal_mask):
            diff_cols.append(col)

    return diff_cols

ポイント

top_n 行だけの比較に限定するため先頭 top_n 行を .iloc[:rows_to_compare] で切り取っている。
デフォルトは1000行まで、そのほか表の具合（行数不足など）に応じて柔軟に対応。
NaNを含む値の比較は元のまま、NaN同士は等しいと判定。

使い方例

df1 = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [4, 5, 6, 7],
})

df2 = pd.DataFrame({
    'A': [1, 20, np.nan, 4],  # 2行目が異なる
    'B': [4, 5, 6, 7],
})

print(find_diff_columns(df1, df2, top_n=2))  # ['A']
print(find_diff_columns(df1, df2, top_n=1))  # []（先頭1行は同じなので異ならない）

user:

ありがとうございました。以上の内容をブログに記録したいので、タイトルを考えてください。

assistant:

こちらこそありがとうございます！ブログタイトル案をいくつか挙げますので、ご参考になれば幸いです。

「Pythonでpandas DataFrameの列比較と再ヘッダー処理を効率的に行う方法」
「pandas DataFrame操作：列の差分検出と動的ヘッダー変更の実装例」
「pandasでExcel風列名を扱う＆列の値差分チェックを柔軟に行うPython関数まとめ」
「Python pandas実践：DataFrameの列名変更と値比較のユーティリティ関数集」
「pandasでDataFrame列の違いを見つける/ヘッダー行を指定して再構築するテクニック」

もしブログの方向性や対象読者、キーワードなどご希望あれば教えてください。それに合わせて最適なタイトル案もご提案します。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up