サマリー
通信会社の顧客データを用いて、「分析価値の創出」を最終ゴールとした分析を行いました。
- アプローチ: 単純な予測モデルの精度向上に固執せず、EDAとクラスタリングを組み合わせることで、解約の背景にある顧客の発見に注力しました。
- 発見: データから、解約率50.4%**に達する「ハイリスク・クラスタ」を特定しました。
- 結論: このクラスタの顧客は『高期待・高感度・低サポート』というペルソナを持つと考え、問題を解消するための施策を考えました。
目次
- はじめに: なぜ「顧客解約」を分析するのか?
- 分析の羅針盤
- 【Phase 1】計画:分析の土台を固める
- 【Phase 2】データ準備
- 【Phase 3】EDA:データとの対話から「解約の兆候」を探る
- 【Phase 4】クラスタリングによる「ハイリスク・セグメント」の発見
- 【Phase 5】考察と施策提案:データからアクションへ
- 試行錯誤から得られた学び
- さいごに
1.はじめに: なぜ「顧客解約」を分析するのか
データ分析の学習として Kaggle 通信会社の顧客離脱(2018年)にチャレンジしようと考えました。
データ分析の目的は、単に数字をいじるのではなく、ビジネス上の課題を解決して価値を提供することだと考え、今回は多くの企業が直面する「顧客の解約」という課題を取り上げました。
また、Kaggleでは評価スコアでランキングが決まりますが、ビジネスの現場では問題解決そのものに焦点があると考えました。架空の業務であるとして捉え、一連の思考プロセスそのものを鍛える場と位置付けました。
顧客の解約は、目先の売り上げ減少以上に深刻な問題で一人の顧客を失う=LTVの逸失を意味します。
その失った顧客を補うためのコストは、既存顧客維持コストの数倍になるようです。
本記事では、この課題に対して、データ分析を通じて
・なぜ顧客は去ってしまうか
・具体的な改善アクションに繋げるには
を考え、学んだ記録をします。
2.分析の羅針盤
場当たり的な分析を避け、ある程度質の高い結果を生み出すために、私はまず分析の全体像を設計する「フレームワーク」を定義しました。書籍やネットの記事、Signateなどで基礎的な部分を学習しており内容を改めて整理しておくことで混乱を防ぐことができると考えたからです。
本分析では、以下の5つのフェーズに沿って進めています。
3.【Phase 1】計画
「何のためにやるのか?」という問いから始めます。分析のゴールを「解約インパクトの大きい顧客セグメントを特定し、それぞれに対する要因の仮説と、それを解決するための施策を提言すること」と定義しました。
- モデル精度に捕らわれず、セグメントの特定と要因考察に焦点を当て考える。
4.【Phase 2】データ準備
初期仮説として「契約期間が短い顧客は解約しやすいのでは?」などを立てた後、信頼できる分析の土台となる「データクレンジング」を行いました。
特にTotalCharges
列の欠損値は、調査の結果、契約期間0ヶ月の顧客データであることが判明したため、「契約直後で請求未発生」と解釈し、0で補完しました。自分が気づく範囲、先人のKaggle分析ノートを参考にしながら、全ての処理に理由をつけて行いました。
5.【Phase 3】EDA
クリーンになったデータを用いて、探索的データ分析(EDA)を行いました。
全体の解約率: 26.54%
個別の変数と解約率の関係を見ると、解約に繋がりやすい「危険因子」が浮かび上がってきます。
このグラフから、全体の解約率26.5%(赤線)を大きく上回る危険因子として、「月次契約」「光回線」「テクニカルサポート未加入」などが明確になりました。
しかし、顧客の解約は単一の要因で起こるわけではありません。これらの危険因子が重なったとき、問題はさらに深刻になります。
例えば、
InternetService
とContract
を組み合わせて見ると、単月契約で光回線を使用いているユーザーの解約率は54.6%に達することがわかります。
このEDAから、解約リスクの高い顧客は、複数の危険因子を併せ持つ特定のグループに集中している、という強い仮説が生まれました。しかし、人間の直感だけでセグメントを定義するのは限界があります。
そこで、次のフェーズでは、データ自身の構造から客観的に顧客をグループ分けするクラスタリングというアプローチを取ることにしました。
6.【Phase 4】クラスタリングによる「ハイリスク・セグメント」の発見
教師なし学習であるk-meansクラスタリングを用い、データ自身から顧客セグメントを発見します。
まず、エルボー法を用いて、顧客をいくつのグループに分けるのが最も合理的かを検討しました。
グラフの傾きが緩やかになる「肘」の部分、k=4あたりが最適と判断し、全顧客を4つのクラスタに分類しました。
その結果、4つのクラスタのうち、「クラスタ1」は解約率が50%ほどと高い、真の“ハイリスク・セグメント”であることが判明しました。
7.【Phase 5】考察と施策提案:データからアクションへ
7-1. ハイリスク・クラスタのペルソナ分析
では、このハイリスクな「クラスタ1」とは、一体何者なのでしょうか?
顧客全体と比較しながら、その詳細なペルソナを考えます。
- 契約状況:89.2%が月次契約(全体55.0%)
- 利用サービス:81.1%が光回線を利用(全体44.0%)
- 家族構成:82.5%が単身者(全体70.0%)
- サポート体制:テクニカルサポートとオンラインセキュリティの未加入率が、それぞれ78.5%、80.4%
これらのデータを統合すると、以下のペルソナが結論として導き出されます。
who:
『最新の光回線を求める、デジタルリテラシーの高い単身者やアクティブシニア層。高価格なサービスに見合う体験を求めるが、長期契約を嫌い、トラブル時のサポート体制も持っていない。』
7-2. ペルソナの問題
このペルソナは、なぜ解約してしまうのでしょうか?
why:
①期待値が高いので、初期に失望している
②トラブル発生時に何も付加価値がない
③低いコミット→長期契約による金銭的メリットを感じていない
この問題を解消するため、以下の3つの施策を提案します。
how:
①認識合わせ: 契約初期の顧客に対し、期待するサービス(回線速度など)がどこまで実現可能か、初期の失望を防ぐ。
②サポート: サポート未加入者に、最初の3ヶ月間、テクニカルサポート等を無料で自動付帯する。サービスの価値を体験させることで、初期に発生した場合のサポートの享受により離脱を防ぐ。
③長期のコミットを促す: 月次契約者に対し、2年契約へ切り替えることで得られる明確な金銭的メリットを提示する。(*2018年時点では、2年間契約による割引があったが、2022年の電気通信事業法改正により、2年縛りや違約金のルールが大きく見直。)
2025年時点では、例えばdocomoとdaznの提携のような、顧客の趣味嗜好に合わせた付加価値サービスとのコラボレーションも、長期的な関係を築く上で有効な一手と考えらる。
8.試行錯誤から得られた学び
ここに至るまで、実は別のアプローチも試みていました。当初は、EDAの発見を基にhigh_risk_segment
といった新しい特徴量を作成し、予測モデルの精度を向上させることで仮説を証明しようと考えていました。
しかし、結果として精度は僅かに下がるか、全く変わりませんでした。今回の場合、「LightGBMのような高性能なモデルにとっては、元の情報から既にセグメントの関係性を学習できていた」という理由のようです。
この試行錯誤を通じて、今回の分析の目的においては、予測精度を0.1%上げることよりも、ビジネスサイドが理解できる“言葉”で要因を説明することの方が、価値があると考えました。この気づきが、最終的にクラスタリングというモデルを使用する事へと繋がりました。
9.さいごに
プロセスは一直線ではなく、問いの立て方そのものを見直す勇気が必要だと考えました。今回の分析を通じて、技術的なスキルだけでなく、ビジネス価値というゴールから逆算して、最適な手法を主体的に選択する柔軟性を学ぶことができました。
クラスター法など、より詳しく学ぶ必要があるので、学びを続けようと思います。