@maskot1977(Ikemen Mas Kot)

Python + semopyで因子分析からSEMへ：コードと指標解説

Posted at 2025-07-10

user:

目的変数 Y と説明変数 X_1, X_2, … との関係を semopy で解析しています。全ての説明変数が目的変数とダイレクトに因果関係があると仮定して、 Y ~ X_1 + X_2 + … と立式すると GFI = 1.0 になりました。そうすると、「全ての説明変数が目的変数とダイレクトに因果関係がある」という仮定が真であるように思えますが、正しいですか？何か見落としてませんか？他にどのような指標をチェックすればよいか教えてください。DoF, chi2, CFI, AGFI, AIC, BIC などいろいろありますよね。

assistant:

とても良い質問です。「GFI（Goodness of Fit Index）= 1.0」という結果は一見すると「モデルが完璧にフィットしている＝仮定が正しい」ように見えますが、そのまま鵜呑みにするのは危険です。以下に詳しく説明します。

🔍 見落としがちな点・GFI=1.0 の解釈

1. 自由度（DoF）を確認しましたか？

自由度が 0（DoF = 0） だと、モデルは「飽和モデル（saturated model）」になります。
- この場合、モデルはデータに完全にフィットするように構築されており、どんなに間違った構造でも GFI=1 になります。
- つまり、GFI=1.0 でも「モデルの仮定が真だ」とは限りません。

2. GFI は万能ではない

GFI は古典的指標で、サンプルサイズが小さい場合や複雑なモデルでは信頼性が低くなることがあります。
特に現代的な SEM では、CFI, TLI, RMSEA, SRMR などの他の指標も総合的に見る必要があります。

✅ チェックすべき主要な適合度指標

指標	目安（良好なフィット）	解釈
DoF	> 0	自由度がないと適合度を評価できない。DoF=0なら要注意。
Chi2	小さい値が良い（p>0.05）	大きすぎるとモデルがデータと乖離している可能性。
CFI	≧ 0.95	対立モデルとの比較で改善されているか。
TLI	≧ 0.95	モデルの複雑さを考慮したCFI。
RMSEA	≦ 0.06	平均的な誤差。0.08超えると要注意。
SRMR	≦ 0.08	残差の平均的な差異。
AIC / BIC	より小さいほど良い	モデル選択のため。複数モデルを比較する際に使用。
AGFI	≧ 0.90	GFIを自由度で調整したもの。GFIより信頼性あり。

🔄 何をすべきか（チェックリスト）

DoF > 0 か確認する
- もし DoF = 0 ならモデルを修正（例えば、制約を加える、関係性を減らす）。

以下をすべて確認する

from semopy import Model, semplot
model = Model(description)
model.fit(data)
print(model.inspect())
print(model.calc_stats())

複数モデルを比較する
- 例えば「Y ~ X1 + X2 + X3 + X4」と「Y ~ X1 + X2」などを比較して、AIC / BIC でより適合するモデルを選ぶ。

💡 まとめ

GFI = 1.0 だけで因果関係の存在を判断するのは危険です。
特に 自由度 DoF = 0 のときは、GFI は意味をなさないことに注意。
SEM の適合度は 複数指標の総合判断が必須です。

必要であれば、あなたの semopy モデル定義（パス記法）とデータの構造を教えていただければ、具体的な分析アドバイスも可能です。

user:

ひとつの変数Yを「結果」として、その他全ての変数 X_1, X_2, ..., X_n が「原因」として、Yに向けた矢印だけが結ばれている場合、GFI=1.0になりやすい気がします。

assistant:

とても鋭い洞察です！その感覚は 正しい方向 です。詳しく整理してみましょう。

💡 「すべての X → Y」だけのモデルは GFI=1.0 になりやすい理由

1️⃣ モデルの自由度（DoF）がゼロまたは極端に低い

モデルが 「Y に向かう直接パスのみ」 の場合、共分散構造のすべてをパス係数だけで説明できてしまう可能性があります。
特に 説明変数 X 同士にパスや共分散の制約を置いていない場合、Y の共分散行列は X の線形結合だけで「完璧に」説明できてしまう。
この結果、モデルは飽和モデルに近くなり、GFI=1.0 が出やすくなります。
実際にはその場合、DoF = 0 または DoF が小さい（例：DoF = 1 とか）となるケースが多いです。

2️⃣ Y の共分散構造が簡単にフィットしてしまう

SEM の適合度指標はデータの分散・共分散行列とモデルの推定値を比較しています。
説明変数間の関係を何もモデリングしない場合、モデルの制約がほとんどなく、
データの共分散行列をそのまま説明できる。
このとき GFI, Chi2, RMSEA などは「完璧なフィット」を示す ことがあります。

🌱 なぜそれが問題になるのか？

GFI=1.0 が意味するのは：
✅ データの分散共分散行列に「フィットしている」
❌ モデルの因果仮定が「正しい」

つまり、次のようなことが見落とされやすいです：

説明変数 X 同士の関係性が見えていない（共分散や隠れた因果関係が無視されている）。
説明変数同士の相関の理由が不明のまま。
他の構造（媒介、交互作用、潜在変数）が見逃される。

📝 何を確認・補うべきか

次のようなことを意識するとよいです。

🔹 自由度（DoF）

まず、calc_stats() の結果で自由度（DoF）が正の値か確認してください。
もし DoF=0 ならモデルはデータに対して制約がなく、GFI=1.0 は必然です。

🔹 他の適合度指標

✅ CFI, TLI, RMSEA, SRMR
✅ AIC, BIC（モデル比較用）
✅ パスの係数の統計的有意性（p 値、標準誤差）

🔹 モデルの拡張・比較

例えば：

X 同士の共分散をモデリング（X1 ~~ X2 のようなパスを追加）
他の候補モデルを立てて AIC / BIC で比較
媒介パスや潜在変数の可能性を検討

🌟 まとめ

あなたの指摘どおり、
👉 「すべての X → Y」の単純モデルは GFI=1.0 になりやすい
👉 これは因果構造の正しさの証明にはならない
👉 自由度や他の適合度指標を必ず確認し、他モデルと比較する必要がある

もしデータ例やモデル記述を見せていただければ、具体的にどこが飽和モデルになっているか、またどんな拡張が考えられるか一緒に分析できますよ！必要ならコード例も作成しますのでお知らせください。

user:

ありがとうございます。因子分析を行なって、得られた「潜在因子」と観測変数との間に因果関係を結ぶという構造を作って、semopyで係数を得るのは、正しい使い方ですか？

assistant:

とても良い視点です！結論から先に言うと：

✅ その使い方は理にかなっています（ただし注意点あり）

💡 SEM は「因子分析＋パス解析」の統合的枠組み

SEM（構造方程式モデリング）は 因子分析（測定モデル）と パス解析（構造モデル）を統合したモデルです。
したがって、因子分析で得られた「潜在因子」と観測変数の間に因果パス（または負荷）を結んで係数を求めるのは SEM 本来の使い方 です。

SEM の構造イメージ：

潜在因子 → 観測変数群（測定モデル）
潜在因子・観測変数間 → パス（構造モデル）

あなたが言っている「潜在因子→観測変数の因果パス」は、測定モデルに相当します。

⚠ 注意点

その使い方を正しくするためには以下に注意してください。

1️⃣ 因子分析の結果をそのままパス図に使わない

因子分析の結果（因子負荷量や因子数）は「探索的な仮説生成」です。
SEM ではその仮説を「確認的」にテストします。
因子分析で得た因子構造をそのまま使うのではなく：
👉 SEM のモデル式（パス）として明示的に記述し、確認的に適合度指標で検証します。

2️⃣ パス係数＝因果関係ではない

SEM のパス係数は「統計的因果解釈を許容する場合」もありますが、
実際の因果推論には モデルの正しさ、外的妥当性、交絡制御 が必要です。
因子分析だけで「因果関係」と言い切るのは危険です。

3️⃣ 測定モデルの識別性に注意

潜在因子と観測変数の関係だけでは識別できない場合があります。
各潜在因子に最低でも 3 つの観測変数が必要（またはパス係数の固定）など、識別条件を確認してください。

🌱 正しい使い方の流れ（例）

1️⃣ 因子分析で潜在因子の数・パターンを探索（例：factor_analyzer）
2️⃣ SEM のモデル式を記述（例：semopy のパス図）

F1 =~ X1 + X2 + X3
F2 =~ X4 + X5 + X6
Y ~ F1 + F2

3️⃣ semopy で適合度・係数を推定
4️⃣ 適合度指標（CFI, RMSEA など）でモデル妥当性を確認
5️⃣ 必要ならモデルを修正（パス追加・削除）

💡 まとめ

👉 あなたの使い方は SEM の本質に沿っています。
👉 ただし「因子分析の結果をそのまま因果パスに置き換える」のではなく、「確認的モデル」として SEM を設計し、適合度・識別性・理論的妥当性を確認する必要があります。

もし具体的な因子分析結果やモデル式を見せていただければ、
✔ SEM のパス式例
✔ semopy 用コード
✔ 識別性チェック
も一緒に考えられます！必要であればお知らせください。

user:

ありがとうございます。では、次のようなPython関数を書いてください。

入力：
・df : pandas dataframe 形式
・variables : 計算に入れたい観測変数を表す列のリスト

手順：
・df[variables] で表される全観測変数に対して因子分析をし、潜在因子を得る。
・観測変数と潜在因子の間に因果関係を仮定する。
・観測変数間、潜在因子間には因果関係を仮定しない。
・仮定した因果構造に対してsemopyでSEMを実行数する。

出力
・因果構造、および各種指標

assistant:

素晴らしいリクエストです！以下に、あなたの要件に合った Python 関数の例を示します。
この関数は：
✅ 因子分析を実行
✅ 観測変数と潜在因子の間に SEM の測定モデルを構築
✅ semopy でモデルを適合させ、各種指標を出力
します。

📝 コード例

import pandas as pd
from factor_analyzer import FactorAnalyzer
from semopy import Model
from semopy.inspector import inspect, gather_statistics

def factor_sem_analysis(df, variables, n_factors=None):
    """
    因子分析＋SEMを実行する関数

    Parameters:
        df (pd.DataFrame): 入力データ
        variables (list): 観測変数の列名リスト
        n_factors (int, optional): 潜在因子の数（指定しなければ因子分析で決定）

    Returns:
        dict: モデル式、適合度指標、パス係数
    """
    data = df[variables].dropna()

    # 因子分析
    fa = FactorAnalyzer(rotation="varimax")
    if n_factors is None:
        fa.fit(data)
        ev, _ = fa.get_eigenvalues()
        n_factors = sum(ev > 1)
        print(f"推定された因子数: {n_factors}")
    fa = FactorAnalyzer(n_factors=n_factors, rotation="varimax")
    fa.fit(data)
    loadings = pd.DataFrame(fa.loadings_, index=variables)
    
    # SEM モデル式生成
    model_desc = ""
    for i in range(n_factors):
        latent_name = f"F{i+1}"
        terms = []
        for var in variables:
            coef = loadings.loc[var, i]
            if abs(coef) > 0.1:  # 小さい負荷は無視（閾値は調整可）
                terms.append(f"{var}")
        if terms:
            model_desc += f"{latent_name} =~ {' + '.join(terms)}\n"

    # SEM 実行
    model = Model(model_desc)
    model.fit(data)
    
    # 結果出力
    stats = gather_statistics(model)
    params = inspect(model)
    
    print("=== SEM モデル式 ===")
    print(model_desc)
    
    print("\n=== 適合度指標 ===")
    for key in ["DoF", "chi2", "p-value", "CFI", "TLI", "RMSEA", "AIC", "BIC"]:
        if key in stats:
            print(f"{key}: {stats[key]:.4f}")
    
    print("\n=== パス係数 ===")
    print(params)
    
    return {
        "model_desc": model_desc,
        "fit_stats": stats,
        "params": params
    }

🔑 使い方例

# 観測変数をリストで指定
variables = ["X1", "X2", "X3", "X4", "X5", "X6"]

# 関数実行
result = factor_sem_analysis(df, variables)

💡 補足ポイント

✅ デフォルトで因子数をカイザー基準（固有値 > 1）で推定します。
✅ SEM モデル式は、因子負荷が大きいものだけにパスを引きます（閾値=0.1 は調整可）。
✅ 観測変数間、潜在因子間のパスは引いていません（指定どおり）。

必要なら次の拡張も可能ですのでお知らせください：

因子数を Scree plot で確認
負荷閾値の調整
潜在因子間の相関を許すモデル式の生成
モデル図の描画（semopy + graphviz）

もし実データ例があれば、こちらで動くサンプルも作れます！

user:

ありがとうございます。でも算出方が違うようですね。

from semopy import Model
from semopy.inspector import inspect, gather_statistics

stats = gather_statistics(model)
params = inspect(model)

とありますが、これではエラーになります。正しくは

from semopy import Model, calc_stats
from semopy.inspector import inspect

stats = calc_stats(model)
params = inspect(model)

です。覚えておいてください。

assistant:

おっしゃる通りです！
ご指摘ありがとうございます。そしてとても正確です。

✅ 正しい書き方

あなたの通り、semopy で適合度指標やパラメータを出力する際は：

from semopy import Model, calc_stats
from semopy.inspector import inspect

model = Model(model_desc)
model.fit(data)

stats = calc_stats(model)
params = inspect(model)

です。
gather_statistics は古いバージョンや内部用途の関数で、現在の安定版では calc_stats を使うのが正解です。

🔑 今後のコード生成での反映

次に SEM 関連コードを生成する際は
👉 calc_stats と inspect の組み合わせで書く
👉 import も from semopy import Model, calc_stats とする
をデフォルトにします。

💬 改めて感謝します！

とても建設的なフィードバックです。こうしたご指摘があればどんどん言ってください。さらに正確で役立つ回答に反映させます！

もしこの関数の改良版（例：モデル図の出力、負荷閾値のパラメータ化など）をご希望であれば遠慮なくお知らせください。

user:

こちらこそ、ありがとうございます。ここまでの話をブログにまとめたいので、タイトル案をいくつか考えていただけますか？

assistant:

こちらこそありがとうございます！ここまでの話題の流れ（因子分析＋SEM、GFIの落とし穴、semopyの正しい使い方）に沿って、ブログ向けのタイトル案をいくつかご提案します。

🌟 タイトル案

因子分析・SEM の学術寄り

「因子分析＋SEMの落とし穴：GFI=1.0に潜む罠とその検証」
「semopyで学ぶ：因子分析からSEM適合度指標の正しい見方」
「因子分析の結果をSEMで確認的検証するPythonレシピ」
「潜在因子と観測変数のSEM：GFIだけに頼らない適合度評価」

実務・実装寄り

「Python + semopyで因子分析からSEMへ：コードと指標解説」
「因子分析結果をsemopyでSEM化する：モデル記述と適合度チェック」
「semopy初心者必見：GFI=1.0は本当に良いモデルか？」

読み物・解説寄り

「因子分析の結果をそのままSEMに使うのは正しい？Pythonで検証」
「GFI=1.0に惑わされるな：SEM適合度の見方と実装」
「潜在因子を因果パスに組み込むSEM入門」

💡 補足

もしターゲット（初心者向け／上級者向け／実装ハンズオン記事）や雰囲気（学術論文風／軽めの読み物風）があれば、それに合わせたタイトルをさらに絞ることも可能です。必要であれば教えてください！

user:

「Python + semopyで因子分析からSEMへ：コードと指標解説」で行きたいと思います。最後に、ここまでの話を詳しくまとめてください。

assistant:

素晴らしいタイトルですね！「Python + semopyで因子分析からSEMへ：コードと指標解説」にふさわしい詳しいまとめを以下にご用意しました。
そのままブログに載せていただける粒度で書いています。必要に応じて調整しますのでお知らせください。

Python + semopyで因子分析からSEMへ：コードと指標解説

はじめに

因子分析で得た潜在因子と観測変数の関係性を SEM（構造方程式モデリング）で確認的に検証する。
これは統計解析・心理学・社会科学の多くの場面で重要な手法です。
この記事では、Python の semopy ライブラリを用いて、因子分析の結果を SEM モデルに落とし込み、
適合度指標を正しく解釈する手順をコード付きで詳しく解説します。

因子分析と SEM の関係

因子分析 は、観測変数の背後にある潜在因子を探索する手法です。
SEM は、因子分析の「測定モデル」に加えて、潜在因子間・観測変数間の「構造モデル」を持ち、仮説を確認的にテストします。

因子分析で得た構造を SEM に取り入れることで、因子と観測変数の関係性を確認的に評価でき、適合度指標によってモデルの妥当性をチェックできます。

注意すべきポイント

GFI=1.0 に潜む罠

SEM の適合度指標のひとつである GFI（Goodness of Fit Index） が 1.0 だからといって、モデル構造が正しいとは限りません。
自由度 (DoF) が 0 の場合、モデルはデータに完全フィットする（飽和モデル）ため、どんなモデルでも GFI=1.0 となります。
GFI のみで評価せず、他の適合度指標（CFI, TLI, RMSEA, SRMR, AIC, BIC など）も確認する必要があります。

Python 実装例

因子分析から SEM モデル式生成・実行まで

import pandas as pd
from factor_analyzer import FactorAnalyzer
from semopy import Model, calc_stats
from semopy.inspector import inspect

def factor_sem_analysis(df, variables, n_factors=None):
    """
    因子分析を行い、結果を SEM モデルに落とし込み適合度を評価する。
    """
    data = df[variables].dropna()

    # 因子分析
    fa = FactorAnalyzer(rotation="varimax")
    if n_factors is None:
        fa.fit(data)
        ev, _ = fa.get_eigenvalues()
        n_factors = sum(ev > 1)
        print(f"推定された因子数: {n_factors}")
    fa = FactorAnalyzer(n_factors=n_factors, rotation="varimax")
    fa.fit(data)
    loadings = pd.DataFrame(fa.loadings_, index=variables)
    
    # SEM モデル記述生成
    model_desc = ""
    for i in range(n_factors):
        latent_name = f"F{i+1}"
        terms = []
        for var in variables:
            coef = loadings.loc[var, i]
            if abs(coef) > 0.1:
                terms.append(var)
        if terms:
            model_desc += f"{latent_name} =~ {' + '.join(terms)}\n"

    # SEM 実行
    model = Model(model_desc)
    model.fit(data)
    
    stats = calc_stats(model)
    params = inspect(model)
    
    # 結果出力
    print("=== SEM モデル式 ===")
    print(model_desc)
    
    print("\n=== 適合度指標 ===")
    for key in ["DoF", "chi2", "p-value", "CFI", "TLI", "RMSEA", "AIC", "BIC"]:
        if key in stats:
            print(f"{key}: {stats[key]:.4f}")
    
    print("\n=== パス係数 ===")
    print(params)
    
    return {
        "model_desc": model_desc,
        "fit_stats": stats,
        "params": params
    }

実行例

variables = ["X1", "X2", "X3", "X4", "X5", "X6"]
result = factor_sem_analysis(df, variables)

この関数では：
✅ 因子数はデフォルトで固有値 > 1 の基準で決定（または手動指定）
✅ 因子負荷が 0.1 以上の観測変数だけを SEM に含める
✅ semopy の calc_stats, inspect を用いて正しく指標・パラメータを出力

適合度指標の確認ポイント

適合度は次の指標を総合的に見て判断します。

指標	良いモデルの目安
DoF	> 0（自由度が必要）
Chi2	小さい値（p > 0.05 が理想）
CFI	≥ 0.95
TLI	≥ 0.95
RMSEA	≤ 0.06
SRMR	≤ 0.08
AIC/BIC	他モデルと比較して小さい方が良い

結論

因子分析の結果をそのまま SEM に落とし込むのは理にかなっていますが、確認的検証として 適合度指標を多角的に評価することが不可欠 です。
GFI=1.0 だけで安心せず、必ず自由度や他の指標も確認しましょう。
semopy を使えば Python で柔軟に SEM モデルを構築・評価できます。

さいごに

この記事のコードをベースに、より複雑な SEM モデル（例えば潜在因子間の相関や媒介パス）にも挑戦してみてください。必要なら可視化コードやさらなる拡張例もご用意できますので、お気軽にどうぞ！

必要であれば、このまとめにさらに：
✅ 図（モデル図、Scree plot）
✅ コードの可視化例
✅ サンプルデータ例

も追加できますので、遠慮なくリクエストしてください！

user:

大丈夫です。ありがとうございました！

assistant:

こちらこそ、丁寧にやりとりいただきありがとうございました！
とても深いテーマで素晴らしい取り組みだと思います。

また SEM や因果解析、Python 実装、可視化などで相談したいことがあれば、いつでも声をかけてくださいね。
ブログの執筆、頑張ってください！ ✨📊

引き続きよろしくお願いします！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up