ChatGPTプラグインの「Notable」を使って、データ分析コンペに挑戦してみたところ、想像以上の結果を出してくれたので共有します。
今回は人間は簡単な指示を出すだけで、ほとんど全てをChatGPTに任せる方針で行なっています。
こちらの記事のように上位6.5%に入りました!という華やかな結果にはなりませんでしたが、予想以上の結果にはなったのでぜひ最後まで読んでみてください!!
データサイエンティストがChatGPTを活用するための記事をまとめているので、こちらもぜひ参考にしてみてください。
ChatGPTプラグインとは
ChatGPTプラグインは、ChatGPTをサードパーティのアプリケーションと連携させるツールです。
これは、GoogleスプレッドシートのアドオンやGoogle Chromeの拡張機能と同様に、公式だけでなく第三者の開発者が作成した機能をChatGPTに追加することで機能を拡充できるものとなっています。
具体的には、プラグインを利用することで、ChatGPTに以下のような機能を追加できるようになります。
- リアルタイムの情報を取得:スポーツのスコアや株価、最新のニュースなどを確認
- ナレッジベースの情報を取得:企業の文書や個人のメモなどを閲覧
- ユーザーの代わりにアクションを実行:フライトの予約や食事の注文などを行う
また、複数のプラグインを有効にしておくと、プロンプトに応じて複数のプラグインを組み合わせて使ってくれます。
注意
- プラグインはChatGPT Plus(有料版)ユーザーのみ利用可能です
- プラグインは順次公開されているので、ChatGPT Plus(有料版)ユーザーでもまだ利用できない可能性があります。
ChatGPTプラグイン「Notable」とは
「Notable」はノートブック形式で、Python、SQL、Markdownを使用してデータを分析したり、可視化ができるプラグインです。
簡単な指示を出すだけで分析や可視化を行ってくれるためデータ分析の専門家でなくても複雑なデータ分析が可能になる優れものです。
ちなみに近いうちにChatGPT上でPythonを使ったコードの実行や、ファイルのアップロード・ダウンロードができるようになるChatGPTの公式プラグイン「Code Interpreter」というのが公開になるそうです。
こちらのプラグインを使うとより簡単により複雑な分析をChatGPT上でやれるようになるみたいです。
詳細は以下のページにまとめたので、こちらも参考にしてみてください。
今回、挑戦するコンペ
今回は、この「Notable」を使って『Probspaceの給与推定コンペ』に取り組んでみました。
コンペ自体ははすでに終了していますが、勤続年数や最終学歴などから給与を指定するというシンプルな問題で、データもわかりやすいので今回はこのコンペを選びました。
実践
それではここから実際に、ChatGPTプラグイン「Notable」でデータ分析をした流れを説明していきます
データの読み込み~基礎集計
まず最初にデータの読み込みと、各変数と目的変数(給与)の相関分析と可視化をお願いしてみました!
データのURLを伝えるだけで、良い感じにデータを読み込んでくれるので、汎用性があり非常に便利です。
ちゃんとデータが読み込めていますね。
変数と目的変数(給与)の相関係数もしっかりと計算してくれ、どの変数が相関が高いor低いまで教えてくれます。
最初の簡単な指示だけで、データの読み込み,相関分析、可視化まで行ってくれていますね。
クラスタリング
次にクラスタリングをお願いしてみました
たった1行の命令でしたが、しっかりクラスタリングしてくれて、各クラスタの特徴まで解説してくれています。
ちゃんと綺麗に分かれていますね!
予測モデル作成(MAE:55.69)
とりあえずこの時点で予測モデルを作ってもらいます。
評価関数がMAEということなので、MAEも出してもらいます。
MAEが55.69と精度はあまりよろしくないですが、「予測モデル作って」のお願いだけで、予測モデルを作ってくれて、評価までしてくれるなんて驚きです。
ただ、このコンペのベストスコアは「19.758」なので、まだ精度改善の余地は大いにありますね!
ちなみに裏ではこんな感じにChatGPTがコードを書いてくれています。
精度改善①(MAE:35.88)
次は精度改善をしてもらいます。
何回も「Used Noteble」と出ているのは、エラーが出た際にエラーの原因を特定して、書き直して実行してを繰り返しているからです。
エラーの頻度は少なくないですが、自分でエラー原因を特定して動くようになるまで自走してちゃんと結果を出してくれるので優秀です。
特徴量追加により、MAEが55.69→35.88になりました。
ベストスコアと比べると、まだまだですがちゃんと自ら特徴量を追加して精度改善できていますね。
精度改善②(MAE:23.82)
せっかく最初に出した相関の結果やクラスタリングを使っていなかったので、それらを特徴量に入れてもらいます。
またモデルも単純な線形回帰しか使っていなかったので、他に良いモデルがないか検討してもらいます。
またモデルもランダムフォレストの使用に切り替えています。
これにより、さらに精度が上がり、MAEが35.88→23.82になりました。
今回出しているのは、あくまでもtrainデータでのMAEですが、リーダーボードのランキングで見ると真ん中くらいの精度なので、悪くはない位置まで来ています。
ここからさらに特徴量エンジニアリングしたり、モデルの変更を検討したり、アンサンブル学習したりとやれることはたくさんありますが、今回は一旦ここまでとします。
まとめ
ChatGPTプラグイン「Notable」を使右ことにより、簡単な指示だけでほぼ全自動で以下の結果が得られました。
- 相関分析&可視化
- 予測モデルの作成
- 予測モデルの改善(MAE:55.69→23.82)
trainデータのMAEなので、あくまでも参考程度ですが、リーダーボード(ランキング)を見ると101位/237位で真ん中よりちょい上くらいです。
本当に簡単な指示のみでやって、さらに改善の余地がまだまだある中でこの結果は個人的には悪くないと思います。
まだデータサイエンティストの仕事が奪われるとは思いませんが、良い感じに活用することでデータ分析の仕事をかなり効率化することはできそうですね!
また、今回はデータ分析のみに使いましたが、簡単なアプリ作成やスクレイピングコードの作成などもサクッとやってもらえそうです。
皆さんもぜひChatGPTプラグイン「Notable」を使って、色々と遊んでみてください!!!!
最後に宣伝です!
データサイエンティストのために、CahtGPTをはじめとした生成AIを使ってデータ分析を効率化する情報をまとめたサイトを運営しています!
生成AI×データ分析に興味がある人はぜひこちらも覗いてもらえると嬉しいです!!