
ChatGPT と Python で学ぶ Cox比例ハザードモデル

Last updated at Posted at 2023-10-08

「ChatGPT で Python プログラミング ケーススタディ」、今回のテーマは、Cox比例ハザードモデルでお送りします。ChatGPTとの雑談をお楽しみください。

ChatGPT と Python で学ぶ Cox比例ハザードモデル にタイトルを変えました!(10/16)




Cox比例ハザードボデル(Cox proportional hazards model)は、サバイバル分析や生存時間解析でよく使われる統計モデルの一つです。

ここでは、Cox比例ハザードモデルを計算するPythonのコードを lifelines ライブラリを使って書くことにします。


!pip install lifelines

次に、サンプルデータを使ってCox proportional hazards modelを適用します。

import pandas as pd
from lifelines import CoxPHFitter

# lifelinesに付属のlungデータセットをロードします。
from lifelines.datasets import load_lung
df = load_lung()

# 前処理として、'status'カラムを1と0のバイナリに変換します。
# 'status'カラムは、1が死亡、2が打ち切り(つまり、研究終了時点で生存)を表しています。
# Coxモデルでは、'status'カラムが0が生存、1が死亡を表す必要があるため、2を0に変換しています。
df['status'] = df['status'] - 1

# Cox比例ハザードモデルを適用します。
cph = CoxPHFitter()
cph.fit(df, duration_col='time', event_col='status')

# 結果を表示します。



cph.fit(df, duration_col='time', event_col='status')でモデルのフィッティングを行い、cph.print_summary()で結果を表示しています。




TypeError                                 Traceback (most recent call last)
Cell In[2], line 15
     13 # Cox比例ハザードモデルを適用します。
     14 cph = CoxPHFitter()
---> 15 cph.fit(df, duration_col='time', event_col='status')
     17 # 結果を表示します。
     18 cph.print_summary()

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:56, in CensoringType.right_censoring.<locals>.f(model, *args, **kwargs)
     53 @wraps(function)
     54 def f(model, *args, **kwargs):
     55     cls.set_censoring_type(model, cls.RIGHT)
---> 56     return function(model, *args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:290, in CoxPHFitter.fit(self, df, duration_col, event_col, show_progress, initial_point, strata, weights_col, cluster_col, robust, batch_mode, timeline, formula, entry_col, fit_options)
    184 """
    185 Fit the Cox proportional hazard model to a right-censored dataset. Alias of `fit_right_censoring`.
    288 """
    289 self.strata = utils._to_list_or_singleton(utils.coalesce(strata, self.strata))
--> 290 self._model = self._fit_model(
    291     df,
    292     duration_col,
    293     event_col=event_col,
    294     show_progress=show_progress,
    295     initial_point=initial_point,
    296     strata=self.strata,
    297     weights_col=weights_col,
    298     cluster_col=cluster_col,
    299     robust=robust,
    300     batch_mode=batch_mode,
    301     timeline=timeline,
    302     formula=formula,
    303     entry_col=entry_col,
    304     fit_options=fit_options,
    305 )
    306 return self

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:610, in CoxPHFitter._fit_model(self, *args, **kwargs)
    608 def _fit_model(self, *args, **kwargs):
    609     if self.baseline_estimation_method == "breslow":
--> 610         return self._fit_model_breslow(*args, **kwargs)
    611     elif self.baseline_estimation_method == "spline":
    612         return self._fit_model_spline(*args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:623, in CoxPHFitter._fit_model_breslow(self, *args, **kwargs)
    619 model = SemiParametricPHFitter(
    620     penalizer=self.penalizer, l1_ratio=self.l1_ratio, strata=self.strata, alpha=self.alpha, label=self._label
    621 )
    622 if utils.CensoringType.is_right_censoring(self):
--> 623     model.fit(*args, **kwargs)
    624     return model
    625 else:

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:56, in CensoringType.right_censoring.<locals>.f(model, *args, **kwargs)
     53 @wraps(function)
     54 def f(model, *args, **kwargs):
     55     cls.set_censoring_type(model, cls.RIGHT)
---> 56     return function(model, *args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1229, in SemiParametricPHFitter.fit(self, df, duration_col, event_col, show_progress, initial_point, strata, weights_col, cluster_col, robust, batch_mode, timeline, formula, entry_col, fit_options)
   1226 self.formula = formula
   1227 self.entry_col = entry_col
-> 1229 X, T, E, weights, entries, original_index, self._clusters = self._preprocess_dataframe(df)
   1231 self.durations = T.copy()
   1232 self.event_observed = E.copy()

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1334, in SemiParametricPHFitter._preprocess_dataframe(self, df)
   1331 utils.check_nans_or_infs(E)
   1332 E = E.astype(bool)
-> 1334 self._check_values_pre_fitting(X, T, E, W, entries)
   1336 return X, T, E, W, entries, original_index, _clusters

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1352, in SemiParametricPHFitter._check_values_pre_fitting(self, X, T, E, W, entries)
   1350 utils.check_for_numeric_dtypes_or_raise(X)
   1351 utils.check_nans_or_infs(T)
-> 1352 utils.check_nans_or_infs(X)
   1353 # check to make sure their weights are okay
   1354 if self.weights_col:

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:1175, in check_nans_or_infs(df_or_array)
   1173 def check_nans_or_infs(df_or_array):
   1174     if isinstance(df_or_array, (pd.Series, pd.DataFrame)):
-> 1175         return check_nans_or_infs(df_or_array.values)
   1177     if pd.isnull(df_or_array).any():
   1178         raise TypeError("NaNs were detected in the dataset. Try using pd.isnull to find the problematic values.")

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:1178, in check_nans_or_infs(df_or_array)
   1175     return check_nans_or_infs(df_or_array.values)
   1177 if pd.isnull(df_or_array).any():
-> 1178     raise TypeError("NaNs were detected in the dataset. Try using pd.isnull to find the problematic values.")
   1180 try:
   1181     infs = np.isinf(df_or_array)

TypeError: NaNs were detected in the dataset. Try using pd.isnull to find the problematic values.


このエラーメッセージは、データセットにNaN(Not a Number)が含まれていることを示しています。NaNは欠損値とも考えられ、lifelinesのCoxPHFitterはこれを扱うことができません。そのため、モデルをフィットする前にこれらの値をクリーニングする必要があります。



import pandas as pd
from lifelines import CoxPHFitter

# lifelinesに付属のlungデータセットをロードします。
from lifelines.datasets import load_lung
df = load_lung()

# 前処理として、'status'カラムを1と0のバイナリに変換します。
# 'status'カラムは、1が死亡、2が打ち切り(つまり、研究終了時点で生存)を表しています。
# Coxモデルでは、'status'カラムが0が生存、1が死亡を表す必要があるため、2を0に変換しています。
df['status'] = df['status'] - 1

# NaNをチェックし、NaNを含む行を削除します。
df = df.dropna()

# Cox比例ハザードモデルを適用します。
cph = CoxPHFitter()
cph.fit(df, duration_col='time', event_col='status')

# 結果を表示します。
inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss
1 3.0 455 0 68 1 0.0 90.0 90.0 1225.0 15.0
3 5.0 210 0 57 1 1.0 90.0 60.0 1150.0 11.0
5 12.0 1022 -1 74 1 1.0 50.0 80.0 513.0 0.0
6 7.0 310 0 68 2 2.0 70.0 60.0 384.0 10.0
7 11.0 361 0 71 2 2.0 60.0 80.0 538.0 1.0
... ... ... ... ... ... ... ... ... ... ...
221 11.0 203 -1 71 2 1.0 80.0 90.0 1025.0 0.0
224 13.0 191 -1 39 1 0.0 90.0 90.0 2350.0 -5.0
225 32.0 105 -1 75 2 2.0 60.0 70.0 1025.0 5.0
226 6.0 174 -1 66 1 1.0 90.0 100.0 1075.0 1.0
227 22.0 177 -1 58 2 1.0 80.0 90.0 1060.0 0.0

167 rows × 10 columns



model lifelines.CoxPHFitter
duration col 'time'
event col 'status'
baseline estimation breslow
number of observations 167
number of events observed 47
partial log-likelihood -177.87
time fit was run 2023-10-07 12:52:54 UTC
coef exp(coef) se(coef) coef lower 95% coef upper 95% exp(coef) lower 95% exp(coef) upper 95% cmp to z p -log2(p)
inst 0.03 1.03 0.02 -0.01 0.07 0.99 1.07 0.00 1.43 0.15 2.72
age -0.02 0.98 0.02 -0.06 0.01 0.94 1.01 0.00 -1.16 0.25 2.03
sex 0.44 1.55 0.31 -0.17 1.05 0.84 2.85 0.00 1.41 0.16 2.67
ph.ecog -0.11 0.90 0.39 -0.88 0.66 0.42 1.94 0.00 -0.27 0.78 0.35
ph.karno 0.02 1.02 0.02 -0.02 0.06 0.98 1.07 0.00 0.95 0.34 1.56
pat.karno -0.01 0.99 0.01 -0.04 0.02 0.96 1.02 0.00 -0.47 0.64 0.65
meal.cal -0.00 1.00 0.00 -0.00 0.00 1.00 1.00 0.00 -0.39 0.70 0.52
wt.loss 0.00 1.00 0.01 -0.02 0.03 0.98 1.03 0.00 0.03 0.98 0.03

Concordance 0.61
Partial AIC 371.74
log-likelihood ratio test 10.54 on 8 df
-log2(p) of ll-ratio test 2.13



  • coef列には各変数の回帰係数が表示されています。
  • exp(coef)列には各変数のハザード比が表示されています。ハザード比は、その変数が1単位変化したときにハザード(つまり、イベントが発生するリスク)が何倍になるかを示します。たとえば、instのハザード比は1.03なので、instが1増えるとハザードは3%増加します。逆に、ageのハザード比は0.98なので、ageが1増えるとハザードは2%減少します。
  • se(coef)はcoefの標準誤差です。これはcoefの不確実性を表します。
  • coefの95%信頼区間がcoef lower 95%とcoef upper 95%の列に表示されています。これにより、coefの真の値がこの区間に含まれる可能性が95%であることが示されています。
  • p列には、各係数が0であるという帰無仮説に対するp値が表示されています。p値が0.05以下の場合、その係数は統計的に有意であると考えられます。この結果では全てのp値が大きいため、各フィーチャーが生存時間と有意に関連しているとは言えません。
  • Concordanceはモデルの全体的な性能を示しています。この値は0から1までの範囲で、大きいほど予測の正確さが高いことを示します。0.5はランダムな予測、1は完全な予測を表します。この結果では0.61なので、比較的良い方の予測が可能と言えるでしょう。
  • -log2(p) of ll-ratio testは、モデルの適合度のテストの結果を表しています。これはモデルの予測が統計的に有意であるかどうかを示すもので、2未満なので、このモデルがデータに有意に適合しているとは見なせません。








また、対数尤度比検定のp値(-log2(p) of ll-ratio test)が2以上であればモデルが統計的に有意であると言えますが、この結果では2未満であり、したがってこのモデルがデータに有意に適合しているとは見なせません。



ありがとうございます。用いるデータは変数dfに入っているデータのまま、計算に CoxPHFitter を使わずにPythonでCox比例ハザードモデルを実装し解析してください。そのコードをできるだけ分かりやすく説明してください。





h(t|X) = h0(t) * exp(Xβ)


import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression

# lifelinesに付属のlungデータセットをロードします。
from lifelines.datasets import load_lung
df = load_lung()

# 前処理として、'status'カラムを1と0のバイナリに変換します。
# 'status'カラムは、1が死亡、2が打ち切り(つまり、研究終了時点で生存)を表しています。
# Coxモデルでは、'status'カラムが0が生存、1が死亡を表す必要があるため、2を0に変換しています。
df['status'] = df['status'] - 1

# さらに、かなり単純化したモデルを作るためにtime変数を離散化します。
df['time_category'] = pd.cut(df['time'], bins=10)

# 欠損値を除外する
df = df.dropna()

# 特徴変数と目標変数を作成する
X = df.drop(['time', 'status', 'time_category'], axis=1)
y = df['status']

# 離散化された時間カテゴリごとに回帰モデルを適用します。
for cat in df['time_category'].cat.categories:
    X_subset = X[df['time_category'] == cat]
    y_subset = y[df['time_category'] == cat]

    # PythonのLogisticRegressionを使用してロジスティック回帰を適用します。
    lr = LogisticRegression(penalty='none', solver='lbfgs')
    lr.fit(X_subset, y_subset)

    # 各回帰係数を表示します。
    print(f"For time category {cat}, coefficients are {lr.coef_}")






ValueError                                Traceback (most recent call last)
Cell In[5], line 31
     29 # PythonのLogisticRegressionを使用してロジスティック回帰を適用します。
     30 lr = LogisticRegression(penalty='none', solver='lbfgs')
---> 31 lr.fit(X_subset, y_subset)
     33 # 各回帰係数を表示します。
     34 print(f"For time category {cat}, coefficients are {lr.coef_}")

File /usr/local/lib/python3.10/site-packages/sklearn/base.py:1151, in _fit_context.<locals>.decorator.<locals>.wrapper(estimator, *args, **kwargs)
   1144     estimator._validate_params()
   1146 with config_context(
   1147     skip_parameter_validation=(
   1148         prefer_skip_nested_validation or global_skip_validation
   1149     )
   1150 ):
-> 1151     return fit_method(estimator, *args, **kwargs)

File /usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:1252, in LogisticRegression.fit(self, X, y, sample_weight)
   1250 classes_ = self.classes_
   1251 if n_classes < 2:
-> 1252     raise ValueError(
   1253         "This solver needs samples of at least 2 classes"
   1254         " in the data, but the data contains only one"
   1255         " class: %r"
   1256         % classes_[0]
   1257     )
   1259 if len(self.classes_) == 2:
   1260     n_classes = 1

ValueError: This solver needs samples of at least 2 classes in the data, but the data contains only one class: 0





import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression

# lifelinesに付属のlungデータセットをロードします。
from lifelines.datasets import load_lung
df = load_lung()

# 前処理として、'status'カラムを1と0のバイナリに変換します。
# 'status'カラムは、1が死亡、2が打ち切り(つまり、研究終了時点で生存)を表しています。
# Coxモデルでは、'status'カラムが0が生存、1が死亡を表す必要があるため、2を0に変換しています。
df['status'] = df['status'] - 1

# さらに、かなり単純化したモデルを作るためにtime変数を離散化します。
df['time_category'] = pd.cut(df['time'], bins=10)

# 欠損値を除外する
df = df.dropna()

# 特徴変数と目標変数を作成する
X = df.drop(['time', 'status', 'time_category'], axis=1)
y = df['status']

# 離散化された時間カテゴリごとに回帰モデルを適用します。
for cat in df['time_category'].cat.categories:
    X_subset = X[df['time_category'] == cat]
    y_subset = y[df['time_category'] == cat]
    if np.sum(y_subset) == 0 or np.sum(y_subset) == len(y_subset):
        # すべての患者が生存している、或いはすべての患者が死亡している場合、このカテゴリをスキップします。

    # PythonのLogisticRegressionを使用してロジスティック回帰を適用します。
    lr = LogisticRegression(penalty='none', solver='lbfgs')
    lr.fit(X_subset, y_subset)

    # 各回帰係数を表示します。
    print(f"For time category {cat}, coefficients are {lr.coef_}")




/usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:1182: FutureWarning: `penalty='none'`has been deprecated in 1.2 and will be removed in 1.4. To keep the past behaviour, set `penalty=None`.
/usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:1182: FutureWarning: `penalty='none'`has been deprecated in 1.2 and will be removed in 1.4. To keep the past behaviour, set `penalty=None`.
/usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:460: ConvergenceWarning: lbfgs failed to converge (status=1):

Increase the number of iterations (max_iter) or scale the data as shown in:
Please also refer to the documentation for alternative solver options:
  n_iter_i = _check_optimize_result(
/usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:1182: FutureWarning: `penalty='none'`has been deprecated in 1.2 and will be removed in 1.4. To keep the past behaviour, set `penalty=None`.
/usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:460: ConvergenceWarning: lbfgs failed to converge (status=1):

Increase the number of iterations (max_iter) or scale the data as shown in:
Please also refer to the documentation for alternative solver options:
  n_iter_i = _check_optimize_result(
/usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:1182: FutureWarning: `penalty='none'`has been deprecated in 1.2 and will be removed in 1.4. To keep the past behaviour, set `penalty=None`.
/usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:1182: FutureWarning: `penalty='none'`has been deprecated in 1.2 and will be removed in 1.4. To keep the past behaviour, set `penalty=None`.
/usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:1182: FutureWarning: `penalty='none'`has been deprecated in 1.2 and will be removed in 1.4. To keep the past behaviour, set `penalty=None`.
/usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:1182: FutureWarning: `penalty='none'`has been deprecated in 1.2 and will be removed in 1.4. To keep the past behaviour, set `penalty=None`.
/usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:1182: FutureWarning: `penalty='none'`has been deprecated in 1.2 and will be removed in 1.4. To keep the past behaviour, set `penalty=None`.
ValueError                                Traceback (most recent call last)
Cell In[6], line 35
     33 # PythonのLogisticRegressionを使用してロジスティック回帰を適用します。
     34 lr = LogisticRegression(penalty='none', solver='lbfgs')
---> 35 lr.fit(X_subset, y_subset)
     37 # 各回帰係数を表示します。
     38 print(f"For time category {cat}, coefficients are {lr.coef_}")

File /usr/local/lib/python3.10/site-packages/sklearn/base.py:1151, in _fit_context.<locals>.decorator.<locals>.wrapper(estimator, *args, **kwargs)
   1144     estimator._validate_params()
   1146 with config_context(
   1147     skip_parameter_validation=(
   1148         prefer_skip_nested_validation or global_skip_validation
   1149     )
   1150 ):
-> 1151     return fit_method(estimator, *args, **kwargs)

File /usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:1252, in LogisticRegression.fit(self, X, y, sample_weight)
   1250 classes_ = self.classes_
   1251 if n_classes < 2:
-> 1252     raise ValueError(
   1253         "This solver needs samples of at least 2 classes"
   1254         " in the data, but the data contains only one"
   1255         " class: %r"
   1256         % classes_[0]
   1257     )
   1259 if len(self.classes_) == 2:
   1260     n_classes = 1

ValueError: This solver needs samples of at least 2 classes in the data, but the data contains only one class: -1



  1. "penalty"パラメータの設定に関する警告。sklearnのバージョンアップにより"penalty='none'"が非推奨になったようです。代わりに"penalty=None"を設定すれば問題は解消されます。

  2. "lbfgs"ソルバが収束しない警告。この問題は"LogisticRegression"オブジェクトのパラメータ"max_iter"(最大反復回数)の値を高めることで解決する場合が多いです。

  3. 一部のカテゴリに2つ以上のクラスが存在しないことによるエラー。以前と同じように、各カテゴリで訓練する前にクラスの存在を確認し、必要なすべてのクラスが存在する場合のみ訓練を行うようにコードを修正する必要があります。


import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.exceptions import ConvergenceWarning
import warnings

# ConvergenceWarningを無視する
warnings.filterwarnings("ignore", category=ConvergenceWarning)

# lifelinesに付属のlungデータセットをロードします。
from lifelines.datasets import load_lung
df = load_lung()

# 前処理として、'status'カラムを1と0のバイナリに変換します。
# 'status'カラムは、1が死亡、2が打ち切り(つまり、研究終了時点で生存)を表しています。
# Coxモデルでは、'status'カラムが0が生存、1が死亡を表す必要があるため、2を0に変換しています。
df['status'] = df['status'] - 1

# さらに、かなり単純化したモデルを作るためにtime変数を離散化します。
df['time_category'] = pd.cut(df['time'], bins=10)

# 欠損値を除外する
df = df.dropna()

# 特徴変数と目標変数を作成する
X = df.drop(['time', 'status', 'time_category'], axis=1)
y = df['status']

# 離散化された時間カテゴリごとに回帰モデルを適用します。
for cat in df['time_category'].cat.categories:
    X_subset = X[df['time_category'] == cat]
    y_subset = y[df['time_category'] == cat]
    if np.sum(y_subset) == 0 or np.sum(y_subset) == len(y_subset):
        # すべての患者が生存している、或いはすべての患者が死亡している場合、このカテゴリをスキップします。

    # PythonのLogisticRegressionを使用してロジスティック回帰を適用します。
    # penaltyパラメータは 'none' から None に、max_iterはデフォルト値の100から200に変更しています。
    lr = LogisticRegression(penalty=None, solver='lbfgs', max_iter=200)
    lr.fit(X_subset, y_subset)

    # 各回帰係数を表示します。
    print(f"For time category {cat}, coefficients are {lr.coef_}")




ValueError                                Traceback (most recent call last)
Cell In[7], line 41
     38 # PythonのLogisticRegressionを使用してロジスティック回帰を適用します。
     39 # penaltyパラメータは 'none' から None に、max_iterはデフォルト値の100から200に変更しています。
     40 lr = LogisticRegression(penalty=None, solver='lbfgs', max_iter=200)
---> 41 lr.fit(X_subset, y_subset)
     43 # 各回帰係数を表示します。
     44 print(f"For time category {cat}, coefficients are {lr.coef_}")

File /usr/local/lib/python3.10/site-packages/sklearn/base.py:1151, in _fit_context.<locals>.decorator.<locals>.wrapper(estimator, *args, **kwargs)
   1144     estimator._validate_params()
   1146 with config_context(
   1147     skip_parameter_validation=(
   1148         prefer_skip_nested_validation or global_skip_validation
   1149     )
   1150 ):
-> 1151     return fit_method(estimator, *args, **kwargs)

File /usr/local/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py:1252, in LogisticRegression.fit(self, X, y, sample_weight)
   1250 classes_ = self.classes_
   1251 if n_classes < 2:
-> 1252     raise ValueError(
   1253         "This solver needs samples of at least 2 classes"
   1254         " in the data, but the data contains only one"
   1255         " class: %r"
   1256         % classes_[0]
   1257     )
   1259 if len(self.classes_) == 2:
   1260     n_classes = 1

ValueError: This solver needs samples of at least 2 classes in the data, but the data contains only one class: -1






import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.exceptions import ConvergenceWarning
import warnings

# ConvergenceWarningを無視する
warnings.filterwarnings("ignore", category=ConvergenceWarning)

# lifelinesに付属のlungデータセットをロードします。
from lifelines.datasets import load_lung
df = load_lung()

# 前処理として、'status'カラムを1と0のバイナリに変換します。
df['status'] = df['status'].apply(lambda x: 0 if x == 2 else x)

# time変数を離散化します。
df['time_category'] = pd.cut(df['time'], bins=10)

# 欠損値を除外する
df = df.dropna()

# 特徴変数と目標変数を作成する
X = df.drop(['time', 'status', 'time_category'], axis=1)
y = df['status']

# 離散化された時間カテゴリごとに回帰モデルを適用します。
for cat in df['time_category'].cat.categories:
    X_subset = X[df['time_category'] == cat]
    y_subset = y[df['time_category'] == cat]
    if np.sum(y_subset) == 0 or np.sum(y_subset) == len(y_subset):
        # すべての患者が生存している、或いはすべての患者が死亡している場合、このカテゴリをスキップします。

    # PythonのLogisticRegressionを使用してロジスティック回帰を適用します。
    lr = LogisticRegression(penalty=None, solver='lbfgs', max_iter=200)
    lr.fit(X_subset, y_subset)

    # 各回帰係数を表示します。
    print(f"For time category {cat}, coefficients are {lr.coef_}")




For time category (3.983, 106.7], coefficients are [[-1.78719059 -0.37680606 -0.05548092 -0.04306473  1.02365472 -0.05287425
   0.01086354  0.31342233]]
For time category (106.7, 208.4], coefficients are [[ 0.05558279 -0.07864067 -2.48557743  3.4266042   0.06130518 -0.11683427
  -0.00666338  0.07130995]]
For time category (208.4, 310.1], coefficients are [[-6.69527402e-03 -2.88770859e-03 -7.45282759e-01  1.14534303e+00
  -1.40710076e-02  1.89484965e-02 -4.66213967e-04  2.26444012e-02]]
For time category (310.1, 411.8], coefficients are [[ -5.75231608  12.93209265 -20.73466096  -0.28193071  11.00620901
  -20.28518925   0.65591034 -17.57868328]]
For time category (411.8, 513.5], coefficients are [[  6.83062325  -9.37126974   2.30770212  -1.83859002   5.7921185
    4.17886189   0.09381226 -16.1881837 ]]
For time category (513.5, 615.2], coefficients are [[-5.44299521  0.26541546 -0.20697612 -0.24633111  0.48122674 -2.70216535
   0.29307614 -1.46856812]]
For time category (716.9, 818.6], coefficients are [[-0.81588738 18.91639327  0.71570677 -0.2338437  -9.78232713  5.55928998
  -0.47874301 -6.52786666]]



  1. 各特徴に対する係数の値が正であれば、その特徴の増加は結果(ここでは死亡)の可能性を高めます。逆に、係数の値が負であれば、その特徴の増加は結果の可能性を低下させます。

  2. 係数の絶対値が大きければ大きいほど、その特徴は結果に強く影響します。つまり、その特徴がモデルの予測に大きな影響を与えます。逆に、係数の絶対値が小さい特徴は、結果にそれほど影響を与えません。

たとえば、「For time category (3.983, 106.7], coefficients are [[-1.78719059 -0.37680606 -0.05548092 -0.04306473 1.02365472 -0.05287425 0.01086354 0.31342233]]」という結果を見てみましょう。




















# 必要なパッケージをインポートします
from lifelines import CoxPHFitter
from lifelines.datasets import load_lung

# データをロードします
df = load_lung()

# 'inst'カラムは病院のセンターを示しています。これをダミー変数に変換します
df = pd.get_dummies(df, columns=['inst'], drop_first=True)

# 前処理として、'status'カラムを1と0のバイナリに変換します。
df['status'] = df['status'].apply(lambda x: 1 if x == 2 else 0)

# Cox比例ハザードモデルをインスタンス化します
cph = CoxPHFitter()

# データをフィットします。イベント発生の列は'status'、時間は'time'とします。
cph.fit(df, duration_col='time', event_col='status')

# 結果を表示します






TypeError                                 Traceback (most recent call last)
Cell In[9], line 18
     15 cph = CoxPHFitter()
     17 # データをフィットします。イベント発生の列は'status'、時間は'time'とします。
---> 18 cph.fit(df, duration_col='time', event_col='status')
     20 # 結果を表示します
     21 cph.print_summary()

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:56, in CensoringType.right_censoring.<locals>.f(model, *args, **kwargs)
     53 @wraps(function)
     54 def f(model, *args, **kwargs):
     55     cls.set_censoring_type(model, cls.RIGHT)
---> 56     return function(model, *args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:290, in CoxPHFitter.fit(self, df, duration_col, event_col, show_progress, initial_point, strata, weights_col, cluster_col, robust, batch_mode, timeline, formula, entry_col, fit_options)
    184 """
    185 Fit the Cox proportional hazard model to a right-censored dataset. Alias of `fit_right_censoring`.
    288 """
    289 self.strata = utils._to_list_or_singleton(utils.coalesce(strata, self.strata))
--> 290 self._model = self._fit_model(
    291     df,
    292     duration_col,
    293     event_col=event_col,
    294     show_progress=show_progress,
    295     initial_point=initial_point,
    296     strata=self.strata,
    297     weights_col=weights_col,
    298     cluster_col=cluster_col,
    299     robust=robust,
    300     batch_mode=batch_mode,
    301     timeline=timeline,
    302     formula=formula,
    303     entry_col=entry_col,
    304     fit_options=fit_options,
    305 )
    306 return self

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:610, in CoxPHFitter._fit_model(self, *args, **kwargs)
    608 def _fit_model(self, *args, **kwargs):
    609     if self.baseline_estimation_method == "breslow":
--> 610         return self._fit_model_breslow(*args, **kwargs)
    611     elif self.baseline_estimation_method == "spline":
    612         return self._fit_model_spline(*args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:623, in CoxPHFitter._fit_model_breslow(self, *args, **kwargs)
    619 model = SemiParametricPHFitter(
    620     penalizer=self.penalizer, l1_ratio=self.l1_ratio, strata=self.strata, alpha=self.alpha, label=self._label
    621 )
    622 if utils.CensoringType.is_right_censoring(self):
--> 623     model.fit(*args, **kwargs)
    624     return model
    625 else:

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:56, in CensoringType.right_censoring.<locals>.f(model, *args, **kwargs)
     53 @wraps(function)
     54 def f(model, *args, **kwargs):
     55     cls.set_censoring_type(model, cls.RIGHT)
---> 56     return function(model, *args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1229, in SemiParametricPHFitter.fit(self, df, duration_col, event_col, show_progress, initial_point, strata, weights_col, cluster_col, robust, batch_mode, timeline, formula, entry_col, fit_options)
   1226 self.formula = formula
   1227 self.entry_col = entry_col
-> 1229 X, T, E, weights, entries, original_index, self._clusters = self._preprocess_dataframe(df)
   1231 self.durations = T.copy()
   1232 self.event_observed = E.copy()

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1334, in SemiParametricPHFitter._preprocess_dataframe(self, df)
   1331 utils.check_nans_or_infs(E)
   1332 E = E.astype(bool)
-> 1334 self._check_values_pre_fitting(X, T, E, W, entries)
   1336 return X, T, E, W, entries, original_index, _clusters

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1352, in SemiParametricPHFitter._check_values_pre_fitting(self, X, T, E, W, entries)
   1350 utils.check_for_numeric_dtypes_or_raise(X)
   1351 utils.check_nans_or_infs(T)
-> 1352 utils.check_nans_or_infs(X)
   1353 # check to make sure their weights are okay
   1354 if self.weights_col:

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:1175, in check_nans_or_infs(df_or_array)
   1173 def check_nans_or_infs(df_or_array):
   1174     if isinstance(df_or_array, (pd.Series, pd.DataFrame)):
-> 1175         return check_nans_or_infs(df_or_array.values)
   1177     if pd.isnull(df_or_array).any():
   1178         raise TypeError("NaNs were detected in the dataset. Try using pd.isnull to find the problematic values.")

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:1178, in check_nans_or_infs(df_or_array)
   1175     return check_nans_or_infs(df_or_array.values)
   1177 if pd.isnull(df_or_array).any():
-> 1178     raise TypeError("NaNs were detected in the dataset. Try using pd.isnull to find the problematic values.")
   1180 try:
   1181     infs = np.isinf(df_or_array)

TypeError: NaNs were detected in the dataset. Try using pd.isnull to find the problematic values.


指摘いただいたエラーメッセージによると、入力データフレームには存在しないという値(NaN:Not a Number)が含まれているようです。こうした値はモデルのフィットに問題を引き起こすため、モデルにデータを入力する前に処理を行う必要があります。



# 必要なパッケージをインポートします
import pandas as pd
from lifelines import CoxPHFitter
from lifelines.datasets import load_lung

# データをロードします
df = load_lung()

# 'inst'カラムは病院のセンターを示しています。これをダミー変数に変換します
df = pd.get_dummies(df, columns=['inst'], drop_first=True)

# 前処理として、'status'カラムを1と0のバイナリに変換します。
df['status'] = df['status'].apply(lambda x: 1 if x == 2 else 0)

# NaNの確認

# NaNが存在する場合には、適切な処理を行う。ここでは単純に削除する。
df = df.dropna()

# Cox比例ハザードモデルをインスタンス化します
cph = CoxPHFitter()

# データをフィットします。イベント発生の列は'status'、時間は'time'とします。
cph.fit(df, duration_col='time', event_col='status')

# 結果を表示します





/home/ikemen/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:1102: ConvergenceWarning: Column(s) ['inst_33.0'] have very low variance. This may harm convergence. 1) Are you using formula's? Did you mean to add '-1' to the end. 2) Try dropping this redundant column before fitting if convergence fails.

  warnings.warn(dedent(warning_text), ConvergenceWarning)
/home/ikemen/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:800: RuntimeWarning: invalid value encountered in divide
  return (X - mean) / std
LinAlgError                               Traceback (most recent call last)
File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1530, in SemiParametricPHFitter._newton_raphson_for_efron_model(self, X, T, E, weights, entries, initial_point, show_progress, step_size, precision, r_precision, max_steps)
   1529 try:
-> 1530     inv_h_dot_g_T = spsolve(-h, g, assume_a="pos", check_finite=False)
   1531 except (ValueError, LinAlgError) as e:

File /usr/local/lib/python3.10/site-packages/scipy/linalg/_basic.py:254, in solve(a, b, lower, overwrite_a, overwrite_b, check_finite, assume_a, transposed)
    251 lu, x, info = posv(a1, b1, lower=lower,
    252                    overwrite_a=overwrite_a,
    253                    overwrite_b=overwrite_b)
--> 254 _solve_check(n, info)
    255 rcond, info = pocon(lu, anorm)

File /usr/local/lib/python3.10/site-packages/scipy/linalg/_basic.py:41, in _solve_check(n, info, lamch, rcond)
     40 elif 0 < info:
---> 41     raise LinAlgError('Matrix is singular.')
     43 if lamch is None:

LinAlgError: Matrix is singular.

During handling of the above exception, another exception occurred:

ConvergenceError                          Traceback (most recent call last)
Cell In[10], line 25
     22 cph = CoxPHFitter()
     24 # データをフィットします。イベント発生の列は'status'、時間は'time'とします。
---> 25 cph.fit(df, duration_col='time', event_col='status')
     27 # 結果を表示します
     28 cph.print_summary()

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:56, in CensoringType.right_censoring.<locals>.f(model, *args, **kwargs)
     53 @wraps(function)
     54 def f(model, *args, **kwargs):
     55     cls.set_censoring_type(model, cls.RIGHT)
---> 56     return function(model, *args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:290, in CoxPHFitter.fit(self, df, duration_col, event_col, show_progress, initial_point, strata, weights_col, cluster_col, robust, batch_mode, timeline, formula, entry_col, fit_options)
    184 """
    185 Fit the Cox proportional hazard model to a right-censored dataset. Alias of `fit_right_censoring`.
    288 """
    289 self.strata = utils._to_list_or_singleton(utils.coalesce(strata, self.strata))
--> 290 self._model = self._fit_model(
    291     df,
    292     duration_col,
    293     event_col=event_col,
    294     show_progress=show_progress,
    295     initial_point=initial_point,
    296     strata=self.strata,
    297     weights_col=weights_col,
    298     cluster_col=cluster_col,
    299     robust=robust,
    300     batch_mode=batch_mode,
    301     timeline=timeline,
    302     formula=formula,
    303     entry_col=entry_col,
    304     fit_options=fit_options,
    305 )
    306 return self

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:610, in CoxPHFitter._fit_model(self, *args, **kwargs)
    608 def _fit_model(self, *args, **kwargs):
    609     if self.baseline_estimation_method == "breslow":
--> 610         return self._fit_model_breslow(*args, **kwargs)
    611     elif self.baseline_estimation_method == "spline":
    612         return self._fit_model_spline(*args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:623, in CoxPHFitter._fit_model_breslow(self, *args, **kwargs)
    619 model = SemiParametricPHFitter(
    620     penalizer=self.penalizer, l1_ratio=self.l1_ratio, strata=self.strata, alpha=self.alpha, label=self._label
    621 )
    622 if utils.CensoringType.is_right_censoring(self):
--> 623     model.fit(*args, **kwargs)
    624     return model
    625 else:

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:56, in CensoringType.right_censoring.<locals>.f(model, *args, **kwargs)
     53 @wraps(function)
     54 def f(model, *args, **kwargs):
     55     cls.set_censoring_type(model, cls.RIGHT)
---> 56     return function(model, *args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1252, in SemiParametricPHFitter.fit(self, df, duration_col, event_col, show_progress, initial_point, strata, weights_col, cluster_col, robust, batch_mode, timeline, formula, entry_col, fit_options)
   1247 # this is surprisingly faster to do...
   1248 X_norm = pd.DataFrame(
   1249     utils.normalize(X.values, self._norm_mean.values, self._norm_std.values), index=X.index, columns=X.columns
   1250 )
-> 1252 params_, ll_, variance_matrix_, baseline_hazard_, baseline_cumulative_hazard_, model = self._fit_model(
   1253     X_norm,
   1254     T,
   1255     E,
   1256     weights=weights,
   1257     entries=entries,
   1258     fit_options=utils.coalesce(fit_options, dict()),
   1259     initial_point=initial_point,
   1260     show_progress=show_progress,
   1261 )
   1263 self.log_likelihood_ = ll_
   1264 self.model = model

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1380, in SemiParametricPHFitter._fit_model(self, X, T, E, weights, entries, fit_options, initial_point, show_progress)
   1369 def _fit_model(
   1370     self,
   1371     X: DataFrame,
   1378     show_progress: bool = True,
   1379 ):
-> 1380     beta_, ll_, hessian_ = self._newton_raphson_for_efron_model(
   1381         X,
   1382         T,
   1383         E,
   1384         weights,
   1385         entries,
   1386         initial_point=initial_point,
   1387         show_progress=show_progress,
   1388         **fit_options,
   1389     )
   1391     # compute the baseline hazard here.
   1392     predicted_partial_hazards_ = (
   1393         pd.DataFrame(np.exp(dot(X, beta_)), columns=["P"]).assign(T=T.values, E=E.values, W=weights.values).set_index(X.index)
   1394     )

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1539, in SemiParametricPHFitter._newton_raphson_for_efron_model(self, X, T, E, weights, entries, initial_point, show_progress, step_size, precision, r_precision, max_steps)
   1534     raise exceptions.ConvergenceError(
   1535         """Hessian or gradient contains nan or inf value(s). Convergence halted. {0}""".format(CONVERGENCE_DOCS),
   1536         e,
   1537     )
   1538 elif isinstance(e, LinAlgError):
-> 1539     raise exceptions.ConvergenceError(
   1540         """Convergence halted due to matrix inversion problems. Suspicion is high collinearity. {0}""".format(
   1541             CONVERGENCE_DOCS
   1542         ),
   1543         e,
   1544     )
   1545 else:
   1546     # something else?
   1547     raise e

ConvergenceError: Convergence halted due to matrix inversion problems. Suspicion is high collinearity. Please see the following tips in the lifelines documentation: https://lifelines.readthedocs.io/en/latest/Examples.html#problems-with-convergence-in-the-cox-proportional-hazard-modelMatrix is singular.


エラーメッセージの中にあるように、'inst_33.0'というカラムが非常に低い分散(値が同じ、もしくは非常に近い値しかない)を持っています。これはモデルの収束性を悪化させる可能性があります。また、後のエラー (Matrix is singular.)は変数間の強い多重共線性 (値が同じまたは非常に似たカラムが存在する)を示しています。これらはモデルの安定性と予測精度に影響する可能性があるため、低分散カラムの削除や多重共線性のチェックを推奨します。


df.drop(columns=['inst_33.0'], inplace=True)    # Low variance column 'inst_33.0' の削除

# 多重共線性のチェック: カラム間の相関係数を計算します
corr_matrix = df.corr().abs()

# 相関行列の上三角部分を取り出します
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool))

# 相関係数が0.95以上のカラムを見つけます
high_corr_cols = [column for column in upper.columns if any(upper[column] > 0.95)]

# 高相関カラムの削除
df.drop(high_corr_cols, axis=1, inplace=True)

# モデルの再作成
cph = CoxPHFitter()
cph.fit(df, duration_col='time', event_col='status')





/tmp/ipykernel_22106/3999755471.py:7: FutureWarning: In the future `np.bool` will be defined as the corresponding NumPy scalar.
  upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool))
AttributeError                            Traceback (most recent call last)
Cell In[11], line 7
      4 corr_matrix = df.corr().abs()
      6 # 相関行列の上三角部分を取り出します
----> 7 upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool))
      9 # 相関係数が0.95以上のカラムを見つけます
     10 high_corr_cols = [column for column in upper.columns if any(upper[column] > 0.95)]

File /usr/local/lib/python3.10/site-packages/numpy/__init__.py:305, in __getattr__(attr)
    300     warnings.warn(
    301         f"In the future `np.{attr}` will be defined as the "
    302         "corresponding NumPy scalar.", FutureWarning, stacklevel=2)
    304 if attr in __former_attrs__:
--> 305     raise AttributeError(__former_attrs__[attr])
    307 # Importing Tester requires importing all of UnitTest which is not a
    308 # cheap import Since it is mainly used in test suits, we lazy import it
    309 # here to save on the order of 10 ms of import time for most users
    310 #
    311 # The previous way Tester was imported also had a side effect of adding
    312 # the full `numpy.testing` namespace
    313 if attr == 'testing':

AttributeError: module 'numpy' has no attribute 'bool'.
`np.bool` was a deprecated alias for the builtin `bool`. To avoid this error in existing code, use `bool` by itself. Doing this will not modify any behavior and is safe. If you specifically wanted the numpy scalar type, use `np.bool_` here.
The aliases was originally deprecated in NumPy 1.20; for more details and guidance see the original release note at:


エラーメッセージから読み取れる通り、フューチャーワーニングが示されており、np.boolが将来のバージョンではNumPyスカラとして定義されると警告が出ています。 よって、代わりにビルトインのboolもしくはnp.bool_を使用するように指示されています。以下のように修正すればエラーは解消されます。

df.drop(columns=['inst_33.0'], inplace=True)      # Low variance column 'inst_33.0' の削除

# 多重共線性のチェック: カラム間の相関係数を計算します
corr_matrix = df.corr().abs()

# 相関行列の上三角部分を取り出します
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))   # np.boolをboolに変更

# 相関係数が0.95以上のカラムを見つけます
high_corr_cols = [column for column in upper.columns if any(upper[column] > 0.95)]

# 高相関カラムの削除
df.drop(high_corr_cols, axis=1, inplace=True)

# モデルの再作成
cph = CoxPHFitter()
cph.fit(df, duration_col='time', event_col='status')




KeyError                                  Traceback (most recent call last)
Cell In[12], line 1
----> 1 df.drop(columns=['inst_33.0'], inplace=True)      # Low variance column 'inst_33.0' の削除
      3 # 多重共線性のチェック: カラム間の相関係数を計算します
      4 corr_matrix = df.corr().abs()

File /usr/local/lib/python3.10/site-packages/pandas/core/frame.py:5258, in DataFrame.drop(self, labels, axis, index, columns, level, inplace, errors)
   5110 def drop(
   5111     self,
   5112     labels: IndexLabel = None,
   5119     errors: IgnoreRaise = "raise",
   5120 ) -> DataFrame | None:
   5121     """
   5122     Drop specified labels from rows or columns.
   5256             weight  1.0     0.8
   5257     """
-> 5258     return super().drop(
   5259         labels=labels,
   5260         axis=axis,
   5261         index=index,
   5262         columns=columns,
   5263         level=level,
   5264         inplace=inplace,
   5265         errors=errors,
   5266     )

File /usr/local/lib/python3.10/site-packages/pandas/core/generic.py:4549, in NDFrame.drop(self, labels, axis, index, columns, level, inplace, errors)
   4547 for axis, labels in axes.items():
   4548     if labels is not None:
-> 4549         obj = obj._drop_axis(labels, axis, level=level, errors=errors)
   4551 if inplace:
   4552     self._update_inplace(obj)

File /usr/local/lib/python3.10/site-packages/pandas/core/generic.py:4591, in NDFrame._drop_axis(self, labels, axis, level, errors, only_slice)
   4589         new_axis = axis.drop(labels, level=level, errors=errors)
   4590     else:
-> 4591         new_axis = axis.drop(labels, errors=errors)
   4592     indexer = axis.get_indexer(new_axis)
   4594 # Case for non-unique axis
   4595 else:

File /usr/local/lib/python3.10/site-packages/pandas/core/indexes/base.py:6699, in Index.drop(self, labels, errors)
   6697 if mask.any():
   6698     if errors != "ignore":
-> 6699         raise KeyError(f"{list(labels[mask])} not found in axis")
   6700     indexer = indexer[~mask]
   6701 return self.delete(indexer)

KeyError: "['inst_33.0'] not found in axis"


このエラーメッセージは、指定したカラム 'inst_33.0' がデータフレーム df 中にないということを示しています。この場合、既に 'inst_33.0' カラムが削除されているか、カラム名が間違っている可能性があります。



これでカラム名を確認し、'inst_33.0' の代わりに適切なカラム名に置き換えることができます。存在しないカラムを削除しようとすると上記のようなエラーが発生するので注意が必要です。


if 'inst_33.0' in df.columns:
    df.drop(columns=['inst_33.0'], inplace=True) # Low variance column 'inst_33.0' の削除

# 多重共線性のチェック: カラム間の相関係数を計算します
corr_matrix = df.corr().abs()

# 相関行列の上三角部分を取り出します
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))

# 相関係数が0.95以上のカラムを見つけます
high_corr_cols = [column for column in upper.columns if any(upper[column] > 0.95)]

# 高相関カラムの削除
df.drop(high_corr_cols, axis=1, inplace=True)

# モデルの再作成
cph = CoxPHFitter()
cph.fit(df, duration_col='time', event_col='status')

この修正により、カラム 'inst_33.0' が存在しない場合でもエラーが発生しないようになりました。



LinAlgError                               Traceback (most recent call last)
File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1530, in SemiParametricPHFitter._newton_raphson_for_efron_model(self, X, T, E, weights, entries, initial_point, show_progress, step_size, precision, r_precision, max_steps)
   1529 try:
-> 1530     inv_h_dot_g_T = spsolve(-h, g, assume_a="pos", check_finite=False)
   1531 except (ValueError, LinAlgError) as e:

File /usr/local/lib/python3.10/site-packages/scipy/linalg/_basic.py:254, in solve(a, b, lower, overwrite_a, overwrite_b, check_finite, assume_a, transposed)
    251 lu, x, info = posv(a1, b1, lower=lower,
    252                    overwrite_a=overwrite_a,
    253                    overwrite_b=overwrite_b)
--> 254 _solve_check(n, info)
    255 rcond, info = pocon(lu, anorm)

File /usr/local/lib/python3.10/site-packages/scipy/linalg/_basic.py:41, in _solve_check(n, info, lamch, rcond)
     40 elif 0 < info:
---> 41     raise LinAlgError('Matrix is singular.')
     43 if lamch is None:

LinAlgError: Matrix is singular.

During handling of the above exception, another exception occurred:

ConvergenceError                          Traceback (most recent call last)
Cell In[13], line 18
     16 # モデルの再作成
     17 cph = CoxPHFitter()
---> 18 cph.fit(df, duration_col='time', event_col='status')
     19 cph.print_summary()

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:56, in CensoringType.right_censoring.<locals>.f(model, *args, **kwargs)
     53 @wraps(function)
     54 def f(model, *args, **kwargs):
     55     cls.set_censoring_type(model, cls.RIGHT)
---> 56     return function(model, *args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:290, in CoxPHFitter.fit(self, df, duration_col, event_col, show_progress, initial_point, strata, weights_col, cluster_col, robust, batch_mode, timeline, formula, entry_col, fit_options)
    184 """
    185 Fit the Cox proportional hazard model to a right-censored dataset. Alias of `fit_right_censoring`.
    288 """
    289 self.strata = utils._to_list_or_singleton(utils.coalesce(strata, self.strata))
--> 290 self._model = self._fit_model(
    291     df,
    292     duration_col,
    293     event_col=event_col,
    294     show_progress=show_progress,
    295     initial_point=initial_point,
    296     strata=self.strata,
    297     weights_col=weights_col,
    298     cluster_col=cluster_col,
    299     robust=robust,
    300     batch_mode=batch_mode,
    301     timeline=timeline,
    302     formula=formula,
    303     entry_col=entry_col,
    304     fit_options=fit_options,
    305 )
    306 return self

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:610, in CoxPHFitter._fit_model(self, *args, **kwargs)
    608 def _fit_model(self, *args, **kwargs):
    609     if self.baseline_estimation_method == "breslow":
--> 610         return self._fit_model_breslow(*args, **kwargs)
    611     elif self.baseline_estimation_method == "spline":
    612         return self._fit_model_spline(*args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:623, in CoxPHFitter._fit_model_breslow(self, *args, **kwargs)
    619 model = SemiParametricPHFitter(
    620     penalizer=self.penalizer, l1_ratio=self.l1_ratio, strata=self.strata, alpha=self.alpha, label=self._label
    621 )
    622 if utils.CensoringType.is_right_censoring(self):
--> 623     model.fit(*args, **kwargs)
    624     return model
    625 else:

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:56, in CensoringType.right_censoring.<locals>.f(model, *args, **kwargs)
     53 @wraps(function)
     54 def f(model, *args, **kwargs):
     55     cls.set_censoring_type(model, cls.RIGHT)
---> 56     return function(model, *args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1252, in SemiParametricPHFitter.fit(self, df, duration_col, event_col, show_progress, initial_point, strata, weights_col, cluster_col, robust, batch_mode, timeline, formula, entry_col, fit_options)
   1247 # this is surprisingly faster to do...
   1248 X_norm = pd.DataFrame(
   1249     utils.normalize(X.values, self._norm_mean.values, self._norm_std.values), index=X.index, columns=X.columns
   1250 )
-> 1252 params_, ll_, variance_matrix_, baseline_hazard_, baseline_cumulative_hazard_, model = self._fit_model(
   1253     X_norm,
   1254     T,
   1255     E,
   1256     weights=weights,
   1257     entries=entries,
   1258     fit_options=utils.coalesce(fit_options, dict()),
   1259     initial_point=initial_point,
   1260     show_progress=show_progress,
   1261 )
   1263 self.log_likelihood_ = ll_
   1264 self.model = model

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1380, in SemiParametricPHFitter._fit_model(self, X, T, E, weights, entries, fit_options, initial_point, show_progress)
   1369 def _fit_model(
   1370     self,
   1371     X: DataFrame,
   1378     show_progress: bool = True,
   1379 ):
-> 1380     beta_, ll_, hessian_ = self._newton_raphson_for_efron_model(
   1381         X,
   1382         T,
   1383         E,
   1384         weights,
   1385         entries,
   1386         initial_point=initial_point,
   1387         show_progress=show_progress,
   1388         **fit_options,
   1389     )
   1391     # compute the baseline hazard here.
   1392     predicted_partial_hazards_ = (
   1393         pd.DataFrame(np.exp(dot(X, beta_)), columns=["P"]).assign(T=T.values, E=E.values, W=weights.values).set_index(X.index)
   1394     )

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1539, in SemiParametricPHFitter._newton_raphson_for_efron_model(self, X, T, E, weights, entries, initial_point, show_progress, step_size, precision, r_precision, max_steps)
   1534     raise exceptions.ConvergenceError(
   1535         """Hessian or gradient contains nan or inf value(s). Convergence halted. {0}""".format(CONVERGENCE_DOCS),
   1536         e,
   1537     )
   1538 elif isinstance(e, LinAlgError):
-> 1539     raise exceptions.ConvergenceError(
   1540         """Convergence halted due to matrix inversion problems. Suspicion is high collinearity. {0}""".format(
   1541             CONVERGENCE_DOCS
   1542         ),
   1543         e,
   1544     )
   1545 else:
   1546     # something else?
   1547     raise e

ConvergenceError: Convergence halted due to matrix inversion problems. Suspicion is high collinearity. Please see the following tips in the lifelines documentation: https://lifelines.readthedocs.io/en/latest/Examples.html#problems-with-convergence-in-the-cox-proportional-hazard-modelMatrix is singular.




  1. 高い相関を持つ特徴のペアを見つけて、それらの中から1つを除去します。相関行列を計算し、閾値(例えば、0.8や0.9など)を超える相関を持つ特徴間のペアを見つけることができます。

  2. 変数間の多重共線性を確認するために、VIF(Variance Inflation Factor)を計算します。VIFが高い(10を超えるなど)特徴は、他の特徴と高度に相関しているとみなすことができます。


from statsmodels.stats.outliers_influence import variance_inflation_factor as vif

if 'inst_33.0' in df.columns:
    df.drop(columns=['inst_33.0'], inplace=True)      # Low variance column 'inst_33.0' の削除

# 多重共線性のチェック: カラム間の相関係数を計算します
corr_matrix = df.corr().abs()

# 相関行列の上三角部分を取り出します
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))

# 相関係数が0.95以上のカラムを見つけます
high_corr_cols = [column for column in upper.columns if any(upper[column] > 0.95)]

# 高相関カラムの削除
df.drop(high_corr_cols, axis=1, inplace=True)

# VIFを計算します
vif_data = pd.DataFrame()
vif_data["feature"] = df.columns
vif_data["VIF"] = [vif(df.values, i) for i in range(df.shape[1])]

# VIFが10以上の特徴を見つけます
high_vif_cols = vif_data[vif_data["VIF"] > 10]["feature"]

# 高VIFのカラムを削除します
df.drop(high_vif_cols, axis=1, inplace=True)

# モデルの再作成
cph = CoxPHFitter()
cph.fit(df, duration_col='time', event_col='status')




ModuleNotFoundError                       Traceback (most recent call last)
Cell In[14], line 1
----> 1 from statsmodels.stats.outliers_influence import variance_inflation_factor as vif
      3 if 'inst_33.0' in df.columns:
      4     df.drop(columns=['inst_33.0'], inplace=True)      # Low variance column 'inst_33.0' の削除

ModuleNotFoundError: No module named 'statsmodels'


ModuleNotFoundError: No module named 'statsmodels' はPythonの統計学的アプローチを提供するライブラリである statsmodels がインストールされておらず、それをインポートしようとしたときに発生します。

この問題を解決するには、まず statsmodels をインストールする必要があります。最も一般的なインストール方法は pip を使う方法で、以下のようにターミナル(コマンドプロンプト)から実行します。

pip install statsmodels


!pip install statsmodels

これにより、statsmodels モジュールがインストールされ、その後のセルで from statsmodels.stats.outliers_influence import variance_inflation_factor as vif を正常にインポートすることができます。



TypeError                                 Traceback (most recent call last)
Cell In[16], line 21
     19 vif_data = pd.DataFrame()
     20 vif_data["feature"] = df.columns
---> 21 vif_data["VIF"] = [vif(df.values, i) for i in range(df.shape[1])]
     23 # VIFが10以上の特徴を見つけます
     24 high_vif_cols = vif_data[vif_data["VIF"] > 10]["feature"]

Cell In[16], line 21, in <listcomp>(.0)
     19 vif_data = pd.DataFrame()
     20 vif_data["feature"] = df.columns
---> 21 vif_data["VIF"] = [vif(df.values, i) for i in range(df.shape[1])]
     23 # VIFが10以上の特徴を見つけます
     24 high_vif_cols = vif_data[vif_data["VIF"] > 10]["feature"]

File ~/.local/lib/python3.10/site-packages/statsmodels/stats/outliers_influence.py:197, in variance_inflation_factor(exog, exog_idx)
    195 mask = np.arange(k_vars) != exog_idx
    196 x_noti = exog[:, mask]
--> 197 r_squared_i = OLS(x_i, x_noti).fit().rsquared
    198 vif = 1. / (1. - r_squared_i)
    199 return vif

File ~/.local/lib/python3.10/site-packages/statsmodels/regression/linear_model.py:922, in OLS.__init__(self, endog, exog, missing, hasconst, **kwargs)
    919     msg = ("Weights are not supported in OLS and will be ignored"
    920            "An exception will be raised in the next version.")
    921     warnings.warn(msg, ValueWarning)
--> 922 super(OLS, self).__init__(endog, exog, missing=missing,
    923                           hasconst=hasconst, **kwargs)
    924 if "weights" in self._init_keys:
    925     self._init_keys.remove("weights")

File ~/.local/lib/python3.10/site-packages/statsmodels/regression/linear_model.py:748, in WLS.__init__(self, endog, exog, weights, missing, hasconst, **kwargs)
    746 else:
    747     weights = weights.squeeze()
--> 748 super(WLS, self).__init__(endog, exog, missing=missing,
    749                           weights=weights, hasconst=hasconst, **kwargs)
    750 nobs = self.exog.shape[0]
    751 weights = self.weights

File ~/.local/lib/python3.10/site-packages/statsmodels/regression/linear_model.py:202, in RegressionModel.__init__(self, endog, exog, **kwargs)
    201 def __init__(self, endog, exog, **kwargs):
--> 202     super(RegressionModel, self).__init__(endog, exog, **kwargs)
    203     self.pinv_wexog: Float64Array | None = None
    204     self._data_attr.extend(['pinv_wexog', 'wendog', 'wexog', 'weights'])

File ~/.local/lib/python3.10/site-packages/statsmodels/base/model.py:270, in LikelihoodModel.__init__(self, endog, exog, **kwargs)
    269 def __init__(self, endog, exog=None, **kwargs):
--> 270     super().__init__(endog, exog, **kwargs)
    271     self.initialize()

File ~/.local/lib/python3.10/site-packages/statsmodels/base/model.py:95, in Model.__init__(self, endog, exog, **kwargs)
     93 missing = kwargs.pop('missing', 'none')
     94 hasconst = kwargs.pop('hasconst', None)
---> 95 self.data = self._handle_data(endog, exog, missing, hasconst,
     96                               **kwargs)
     97 self.k_constant = self.data.k_constant
     98 self.exog = self.data.exog

File ~/.local/lib/python3.10/site-packages/statsmodels/base/model.py:135, in Model._handle_data(self, endog, exog, missing, hasconst, **kwargs)
    134 def _handle_data(self, endog, exog, missing, hasconst, **kwargs):
--> 135     data = handle_data(endog, exog, missing, hasconst, **kwargs)
    136     # kwargs arrays could have changed, easier to just attach here
    137     for key in kwargs:

File ~/.local/lib/python3.10/site-packages/statsmodels/base/data.py:675, in handle_data(endog, exog, missing, hasconst, **kwargs)
    672     exog = np.asarray(exog)
    674 klass = handle_data_class_factory(endog, exog)
--> 675 return klass(endog, exog=exog, missing=missing, hasconst=hasconst,
    676              **kwargs)

File ~/.local/lib/python3.10/site-packages/statsmodels/base/data.py:88, in ModelData.__init__(self, endog, exog, missing, hasconst, **kwargs)
     86 self.const_idx = None
     87 self.k_constant = 0
---> 88 self._handle_constant(hasconst)
     89 self._check_integrity()
     90 self._cache = {}

File ~/.local/lib/python3.10/site-packages/statsmodels/base/data.py:133, in ModelData._handle_constant(self, hasconst)
    131 check_implicit = False
    132 exog_max = np.max(self.exog, axis=0)
--> 133 if not np.isfinite(exog_max).all():
    134     raise MissingDataError('exog contains inf or nans')
    135 exog_min = np.min(self.exog, axis=0)

TypeError: ufunc 'isfinite' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''


このエラーメッセージは、NumPyの関数 isfinite がサポートしていないデータタイプを扱おうとして発生します。具体的には、データフレーム df の中に適切でないデータ型(文字列、日付など)が含まれている可能性があります。

そのため、データフレーム df が数値(整数型または浮動小数点型)のみで構成されていることを確認することが必要です。もし数値でないカラムが含まれていれば、それを適切な数値に変換するか、またはそのカラムを削除する必要があります。


# Show the data types of each column

# Keep only the columns with numerical data types
df = df.select_dtypes(include=[np.number])

# Then proceed with the VIF calculation
vif_data = pd.DataFrame()
vif_data["feature"] = df.columns
vif_data["VIF"] = [vif(df.values, i) for i in range(df.shape[1])]





以下に、Cox比例ハザードモデルで2群の比較を行うPythonコードの一例を示します。このコードは、生存時間分析(Survival Analysis)パッケージ lifelines を使用しています。そのため、まず lifelines パッケージをインストールする必要があります。

# ライブラリのインポート
import pandas as pd
import numpy as np
from lifelines import CoxPHFitter
from lifelines.datasets import load_rossi

# lifelinesパッケージに含まれるRossi教授の再犯予測データセットをロードします
# rossiデータセットは、試験終了までの週数('week')と再犯があったかどうか('arrest')を含みます。
df = load_rossi()

# Cox比例ハザードモデルをインスタンス化します
cph = CoxPHFitter()

# モデルにデータをフィットさせます。時間変数は'week'、イベント変数は'arrest'です。
cph.fit(df, duration_col='week', event_col='arrest')

# モデルの結果を表示します

# 2群('fin'が0と1の群)の生存曲線をプロットします
cph.plot_partial_effects_on_outcome('fin', values=[0, 1])


このコードでは、まず lifelines パッケージから CoxPHFitter クラスをインポートしています。次に、CoxPHFitter クラスのインスタンス cph を作成し、データをフィットさせています。そして、フィットさせた結果を表示し、最後に plot_partial_effects_on_outcome メソッドで、特定の変数(ここでは 'fin')の値が0と1の場合の生存曲線をプロットしています。






Pythonの lifelines パッケージを使用して、Cox比例ハザードモデルロイで2群間の比較を行うコードを以下に示します。具体的には、lungデータセットの「性別(sex)」による比較を行います。sex カラムは2値を持ち、1は男性、2は女性を示しています。

この lung データセットは、肺がん患者の生存時間データを含んでいます。このデータセットは、研究者が腫瘍の発生からの生存時間(time)、患者が生きているか死亡したか(status)、および患者の性別(sex)などの様々な変数を元に、患者の生存時間を予測するために使われます。

# 必要なパッケージをインポート
import matplotlib.pyplot as plt
from lifelines import CoxPHFitter
from lifelines.datasets import load_lung

# データを読み込む
df = load_lung()

# Cox比例ハザードモデルのインスタンスを作成
cph = CoxPHFitter()

# モデルをデータにフィット('time'が生存時間, 'status'がイベント発生かどうか)
cph.fit(df, 'time', event_col='status')

# サマリを表示

# 'sex' を基準にして生存関数をプロット
# 'sex' = 1 は男性, 'sex' = 2 は女性を意味する
cph.plot_partial_effects_on_outcome('sex', values=[1, 2], cmap='coolwarm')


このコードではまず lifelines パッケージから CoxPHFitter クラスをインポートしています。次に CoxPHFitter クラスのインスタンス cph を作成し、データをフィットさせています。fit メソッドの引数としては、対象のデータセット、時系列データを表すカラム名、そしてイベント発生情報を表すカラム名を指定します。

フィットさせた後は、 print_summary メソッドでモデルのサマリを表示して、最終的に plot_partial_effects_on_outcome メソッドを使用して、特定の変数(ここでは sex)に対する生存曲線の影響をプロットします。これにより、特定の変数の異なる値による生存曲線の違いを視覚的に比較することができます。

なお、性別以外の変数で比較を行いたい場合は、plot_partial_effects_on_outcome メソッドの引数を適宜変更してください。



TypeError                                 Traceback (most recent call last)
Cell In[19], line 13
     10 cph = CoxPHFitter()
     12 # モデルをデータにフィット('time'が生存時間, 'status'がイベント発生かどうか)
---> 13 cph.fit(df, 'time', event_col='status')
     15 # サマリを表示
     16 cph.print_summary()

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:56, in CensoringType.right_censoring.<locals>.f(model, *args, **kwargs)
     53 @wraps(function)
     54 def f(model, *args, **kwargs):
     55     cls.set_censoring_type(model, cls.RIGHT)
---> 56     return function(model, *args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:290, in CoxPHFitter.fit(self, df, duration_col, event_col, show_progress, initial_point, strata, weights_col, cluster_col, robust, batch_mode, timeline, formula, entry_col, fit_options)
    184 """
    185 Fit the Cox proportional hazard model to a right-censored dataset. Alias of `fit_right_censoring`.
    288 """
    289 self.strata = utils._to_list_or_singleton(utils.coalesce(strata, self.strata))
--> 290 self._model = self._fit_model(
    291     df,
    292     duration_col,
    293     event_col=event_col,
    294     show_progress=show_progress,
    295     initial_point=initial_point,
    296     strata=self.strata,
    297     weights_col=weights_col,
    298     cluster_col=cluster_col,
    299     robust=robust,
    300     batch_mode=batch_mode,
    301     timeline=timeline,
    302     formula=formula,
    303     entry_col=entry_col,
    304     fit_options=fit_options,
    305 )
    306 return self

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:610, in CoxPHFitter._fit_model(self, *args, **kwargs)
    608 def _fit_model(self, *args, **kwargs):
    609     if self.baseline_estimation_method == "breslow":
--> 610         return self._fit_model_breslow(*args, **kwargs)
    611     elif self.baseline_estimation_method == "spline":
    612         return self._fit_model_spline(*args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:623, in CoxPHFitter._fit_model_breslow(self, *args, **kwargs)
    619 model = SemiParametricPHFitter(
    620     penalizer=self.penalizer, l1_ratio=self.l1_ratio, strata=self.strata, alpha=self.alpha, label=self._label
    621 )
    622 if utils.CensoringType.is_right_censoring(self):
--> 623     model.fit(*args, **kwargs)
    624     return model
    625 else:

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:56, in CensoringType.right_censoring.<locals>.f(model, *args, **kwargs)
     53 @wraps(function)
     54 def f(model, *args, **kwargs):
     55     cls.set_censoring_type(model, cls.RIGHT)
---> 56     return function(model, *args, **kwargs)

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1229, in SemiParametricPHFitter.fit(self, df, duration_col, event_col, show_progress, initial_point, strata, weights_col, cluster_col, robust, batch_mode, timeline, formula, entry_col, fit_options)
   1226 self.formula = formula
   1227 self.entry_col = entry_col
-> 1229 X, T, E, weights, entries, original_index, self._clusters = self._preprocess_dataframe(df)
   1231 self.durations = T.copy()
   1232 self.event_observed = E.copy()

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1334, in SemiParametricPHFitter._preprocess_dataframe(self, df)
   1331 utils.check_nans_or_infs(E)
   1332 E = E.astype(bool)
-> 1334 self._check_values_pre_fitting(X, T, E, W, entries)
   1336 return X, T, E, W, entries, original_index, _clusters

File ~/.local/lib/python3.10/site-packages/lifelines/fitters/coxph_fitter.py:1352, in SemiParametricPHFitter._check_values_pre_fitting(self, X, T, E, W, entries)
   1350 utils.check_for_numeric_dtypes_or_raise(X)
   1351 utils.check_nans_or_infs(T)
-> 1352 utils.check_nans_or_infs(X)
   1353 # check to make sure their weights are okay
   1354 if self.weights_col:

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:1175, in check_nans_or_infs(df_or_array)
   1173 def check_nans_or_infs(df_or_array):
   1174     if isinstance(df_or_array, (pd.Series, pd.DataFrame)):
-> 1175         return check_nans_or_infs(df_or_array.values)
   1177     if pd.isnull(df_or_array).any():
   1178         raise TypeError("NaNs were detected in the dataset. Try using pd.isnull to find the problematic values.")

File ~/.local/lib/python3.10/site-packages/lifelines/utils/__init__.py:1178, in check_nans_or_infs(df_or_array)
   1175     return check_nans_or_infs(df_or_array.values)
   1177 if pd.isnull(df_or_array).any():
-> 1178     raise TypeError("NaNs were detected in the dataset. Try using pd.isnull to find the problematic values.")
   1180 try:
   1181     infs = np.isinf(df_or_array)

TypeError: NaNs were detected in the dataset. Try using pd.isnull to find the problematic values.


このエラーは、データフレームにNaN(Not a Number、すなわち不明または無効な)値が存在していることを示しています。Cox比例ハザードモデルでは、NaN値を含むデータを扱うことができません。したがって、NaN値を削除するまたは適切な値に置換する必要があります。

以下のコードでは、まず df にNaNが存在するかチェックします。もし存在すれば、そのNaNを dropna 文を用いて削除し、その上でCoxの比例ハザードモデルを適用します。

# 必要なライブラリのインポート
from lifelines import CoxPHFitter
from lifelines.datasets import load_lung

# データのロード
df = load_lung()

# NaNを含む行を削除
df = df.dropna()

# Coxの比例ハザードモデルのインスタンス化
cph = CoxPHFitter()

# モデルへのデータのフィット('time' が生存時間, 'status' がイベント生起の有無)
cph.fit(df, 'time', event_col='status')

# モデルのサマリを表示

# 変数 'sex' の値 1 と 2 の比較を行う生存曲線をプロット
cph.plot_partial_effects_on_outcome('sex', values=[1, 2], cmap='coolwarm')


上記のコードでは dropna を使い、NaN値を含む行を全て削除しています。これは一つでも存在するNaN値が目的の解析に悪影響を及ぼす可能性があるためです。



# 各列でNaNが何個あるか確認します。



model lifelines.CoxPHFitter
duration col 'time'
event col 'status'
baseline estimation breslow
number of observations 167
number of events observed 120
partial log-likelihood -491.27
time fit was run 2023-10-07 13:51:37 UTC
coef exp(coef) se(coef) coef lower 95% coef upper 95% exp(coef) lower 95% exp(coef) upper 95% cmp to z p -log2(p)
inst -0.03 0.97 0.01 -0.06 -0.00 0.95 1.00 0.00 -2.31 0.02 5.60
age 0.01 1.01 0.01 -0.01 0.04 0.99 1.04 0.00 1.07 0.28 1.82
sex -0.57 0.57 0.20 -0.96 -0.17 0.38 0.84 0.00 -2.81 <0.005 7.68
ph.ecog 0.91 2.48 0.24 0.44 1.38 1.55 3.96 0.00 3.80 <0.005 12.77
ph.karno 0.03 1.03 0.01 0.00 0.05 1.00 1.05 0.00 2.29 0.02 5.49
pat.karno -0.01 0.99 0.01 -0.03 0.01 0.97 1.01 0.00 -1.34 0.18 2.47
meal.cal 0.00 1.00 0.00 -0.00 0.00 1.00 1.00 0.00 0.01 0.99 0.01
wt.loss -0.02 0.98 0.01 -0.03 -0.00 0.97 1.00 0.00 -2.11 0.03 4.85

Concordance 0.65
Partial AIC 998.54
log-likelihood ratio test 33.70 on 8 df
-log2(p) of ll-ratio test 14.41




  • number of observationsは解析に利用した被験者の人数で167人となっています。これはデータセット中の全体のサンプル数です。
  • number of events observedは120となっており、これはサンプル中に観察されたイベント(この場合では死亡)の数を示します。
  • partial log-likelihoodは-491.27となっており、尤度関数の対数をとった値で、モデルが生成されたときの適合度を示します。つまりデータに対するモデルのあてはまりを示しています。値自体は絶対的な意味を持たず、比較的な意味合いで用いられます。
  • Concordanceは0.65であり、これはハーザード比を使用して予測されるサバイバル順序と実際のサバイバル順序との一致度を表します。値が1に近いほどより良い予測精度を示します。

次に、各変数の結果を見てみましょう。簡単のために sex 変数の結果だけを見てみます。

  • coefは-0.57であり、これは回帰係数を表し、各予測変数がサバイバル時間にどの程度の効果を持つか示します。負の値は予測変数が増加するとサバイバル時間が減少(つまりイベントが早く発生)することを示します。
  • exp(coef)は0.57であり、これはハザード比を示します。ハザード比が1より小さい場合、予測変数が単位増加すると、ハザード(死亡率)が減少することを意味します。ここでは男性(sex=1)のハザードは女性(sex=2)に比べて0.57倍であることを示しています。
  • pは<0.005であり、これは各予測変数の係数が0と異なる確率を表すp値です。このp値は0.005より小さいので、性別が生存時間に統計的に有意な影響を及ぼすと結論付けることができます。






  1. 目的:カプランマイヤー法(KM法)は、ある群の生存時間を推定するのが主な目的です。この推定結果(生存曲線)は経時的に生存割合がどのように変化するかを示すものです。一方、Cox比例ハザードモデルは、2つ以上の群の生存時間を比較するだけでなく、各予測変数が生存時間にどの程度影響を与えるか(ハザード比)を推定するのが目的です。

  2. 変数の数:KM法は単変量分析の手法で、一度に1つの因子だけを考慮します。それに対してCox比例ハザードモデルは多変量分析の手法であり、複数の因子を同時に考慮することができます。

  3. タイプの違い:KM法は非パラメトリック(パラメータに基づかない)な手法で、特定の仮定を必要とせず、すべての被験者の時間が正確に記録されているという状況等に有効です。一方、Coxモデルはセミパラメトリック(部分的にパラメータに基づく)な手法で、各予測変数の効果が一定(時間不変)であるという仮定に基づいています。

  4. 通常の利用方法:KM法はしばしば2群のサバイバルカーブを描いて視覚的に違いを比較するのに使われます。一方Cox比例ハザードモデルは、各予測因子の効果の大きさ(係数やハザード比)やその統計的有意性(p値)を評価するのに使われます。








モデルフィッティングが完了したら、モデルのサマリを表示し、各変数(inst、age、sex、ph.ecog、ph.karno、pat.karno、meal.cal、wt.loss)の係数、ハザード比(exp(coef))、標準誤差(se(coef))、95%信頼区間(coef lower 95%、coef upper 95%)、それに対応するp値を確認しました。





















