ChatGPTを使ってデータサイエンティストの生産性を爆上げする活用術をまとめました!
また、データサイエンティストがChatGPTを活用するための記事をまとめているので、こちらもぜひ参考にしてみてください。
データ前処理
「ChatGPTを使用すると、「データを分析可能な形に前処理して」といった大雑把なリクエストに対しても、すんなりと対応し、データ前処理を行ってくれます。」
今のところ、大量のデータを前処理する際にChatGPTを利用する場合は、ChatGPTに実際の前処理を行わせるのではなく、前処理用のサンプルコードを教えてもらう方が良いでしょう。
ただし、近い将来にはCSVやExcelを直接アップロード&ダウンロード可能な「Code Interpreter」というプラグインが追加される予定とのことで、実務利用が大いに現実味を帯びると考えられます。
詳細は以下のページで紹介しています!
ダミーデータ作成
条件を考えながら真面目に作ると意外と時間がかかるダミーデータの作成もChatGPTにお任せできます。
「POSデータのダミーデータを作って」の指示だけで、適切なカラムとそれっぽい数値を入れて作ってくれました!
ただ、大量のデータの作成はまだできないので、現段階では以下のように、ダミーデータを作るコードを教えてもらう方が実用的です。
とはいえ、ダミーデータの作成も「Code Interpreter」が実装されれば、大量のデータもダウンロードできるようになるので、かなり実用的になると思います!
データ抽出(SQL)
SQLのコードも作成してもらえます。
今回は先ほど作成してもらったデータを元に、架空のマスターテーブルとJOINして簡単な集計をするSQLのコードを教えてもらいました。
複雑なクエリでも問題なく作ってもらえるので、近い将来SQLを書かなくても誰でもデータ抽出ができるようになることを予感させてくれます。
ちなみに日本でも既に自然言語からSQLを生成してくれるサービスも登場しているみたいです!
データ分析の専門家に頼まなくても誰でも簡単にデータを抽出できる未来はすぐ来そうですね!
予測モデル作成
驚くべきことにChatGPTのプラグイン「Notable」を使えば、予測モデルの作成までできちゃいます。
「Notable」はノートブック形式で、Python、SQL、Markdownを使用してデータを分析したり、可視化ができるプラグインです。
簡単な指示を出すだけで分析や可視化を行ってくれるためデータ分析の専門家でなくても複雑なデータ分析が可能になる優れものです。
裏ではこんな感じにChatGPTがコードを書いてくれています。
このようにChatGPT単体ではできないことでも、プラグインを使うことで可能になり、よりChatGPTを便利に使うことができるようになります!
ちなみに、「Notable」以外のおすすめのChatGPTのプラグインは以下のページで紹介しています。
しかもモデルの評価もお願いできるので、予測モデルの作成から評価まで簡単な指示だけで専門的な知識がなくても簡単に可能です。
詳細は以下の記事で記載しています!
予測モデルの精度改善
さらには、作成た予測モデルをChatGPTが自ら考えて、精度を改善することまで可能です。
自ら精度が上がるように特徴量を追加していることがわかります。
もう少し具体的な指示を出すことで、モデルの見直しまで行いさらに精度を向上しました。
データの可視化
もちろん可視化も可能です。
具体的な指示をしなくてもデータの特徴から、適切な可視化をしてくれます
恐ろしいです。
データ分析を全て任せる
上でも紹介したこの記事では、ChatGPTプラグインの「Notable」を使って、人間は簡単な指示を出すだけでデータ分析コンペに挑戦してみた話を書いています。
データ分析コンペで1位を獲得!」という華やかな結果には至りませんでしたが、ほぼ全自動で予想以上の成果が得られたので、ぜひ一度ご覧いただければと思います。
データサイエンティストの仕事は奪われないが使いこなせば強力な武器に!
以上がデータサイエンティストがChatGPTを有効に活用する方法になります。
現段階ではデータサイエンティストの仕事が置き換わるとは思えませんが、適切に活用することでデータ分析作業の大幅な効率化が期待できますね!
最後に宣伝です!
データサイエンティストのために、CahtGPTをはじめとした生成AIを使ってデータ分析を効率化する情報をまとめたサイトを運営しています!
生成AI×データ分析に興味がある人はぜひこちらも覗いてもらえると嬉しいです!!