- AIでデータ分析-相関分析:給料と相関の強い要因を調べる
- 用いるデータの紹介
- Pythonで相関分析を実行する
- AIの活用:chatGPTで相関分析を実行する
- AIの活用:データサイエンスの知識を使わずchatGPTに給料の高さに影響が大きい要因を聞く
- まとめ
AIでデータ分析-相関分析:給料と相関の強い要因を調べる
このノートは、分析においてAIを使って何ができて何ができないかを検証するために、実際に試した結果をまとめたノートです。
今回は給料と相関の強い要因を調べていきたいと思います。
その際、AIで相関分析を正しく実行できるのか、統計の知識がなくても同様の分析結果を得られるのか、試してみたいと思います。AIを用いることでいかに効率化できるのか、体験していただければと思います。
所要時間は10分ほどとなっています。
それでは、さっそく始めていきましょう!
データの紹介
今回検証に用いるデータのサンプルデータは従業員データです。サンプルデータはこちらからダウンロードできます。
1行が従業員1人のデータになっています。列情報としては年齢、性別、婚姻ステータス、部署、職種、給料などがあります。
まずはPythonで相関分析を実行する
まずはPythonで給料と相関係数の絶対値が大きい変数として、上位10個抽出します。
結果を確認します。
所要時間は10分でした。
AIの活用:ChatGPTで相関分析を実行する
次に同じことをするため、chatGPTに従業員データをアップロードし、「添付のデータを使って相関分析を実行し、給料と相関係数の絶対値が大きい変数を上から10個出力して」と入力し、実行します。
結果を確認します。
相関分析は行なってくれていますが、データ内のデータタイプがCharacter(カテゴリー)型のデータについて、ダミー変数化はされていないようです。
所要時間は1分でした。
次にダミー変数化を行う列も指定した上で相関分析を依頼してみます。
プロンプトとして「添付のデータを使ってカテゴリー型のデータはダミー変数化し、相関分析を実行してください。そして給料と相関係数の絶対値が大きい変数を上から10個出力してください。」と入力し、実行します。
結果を確認します。
ダミー変数化も適切に行われ、相関係数も正しく計算されていることが確認できました。
所要時間は1分でした。
次にAIを用いると、統計の知識がなくても相関分析と同じような分析結果を得ることができるのか試してみたいと思います。
AIの活用:データサイエンスの知識を使わずchatGPTに給料の高さに影響が大きい要因を聞く
chatGPTで新しいchatを開き従業員データをアップロードし、「添付のデータを使って給料の高さに影響の大きい要素を教えて」と入力し、実行します。
出力結果を確認します。
変数の順位、相関係数は正しく出力されていることが確認できました。
一方カテゴリ変数のダミー変数化することを提案してくれているものの、やはりデータタイプの変換が必要であることや、ダミー変数化とは何なのかというデータサイエンスにおける一定の知識はまだ必要とされることが確認できます。
所要時間は1分でした。
まとめ
今回は給料と相関の強い変数を分析するにあたり、相関分析を3つの方法で試しました。
1つ目はPythonを用いた方法と、2つ目はchatGPTを用いてデータサイエンスの用語は用いるものの自然言語で依頼する方法、3つ目はchatGPTを用いてデータサイエンスの知識がないという前提で分析を行う方法です。
結果は詳細に分析したい際にはchatGPTにダミー変数化をこちらから依頼する必要があること、データサイエンスの知識がなくても相関分析で得られる分析結果を一定得られるものの、詳細な分析を行うにはまだ一定のデータサイエンスの知識が必要とされることを
確認することができました。
AIでできることとできないことを把握し、うまく活用することで、データ分析もかなり効率化できそうですね!
AIでデータ分析-相関分析:給料と相関の強い要因を調べる は以上となります!










