背景
Code Interpreter の可能性は本当に凄まじいものがあります。
この Blog Post では、データ加工について取り上げます。データを扱う上で最も退屈かつ最もコンピューターリソースを必要とすることもある、データの加工。特にクレンジングや前処理と言われている部分にチャレンジをします。
前に別の Blog で加工済みのデータの分析の初歩にチャレンジしてみました。
こちらですね。
構造化されたデータからの:
- グラフ作成
- 気づきの文章作成! これ予想外にいい
さらに
- PowerPoint のプレゼン作成
を行ってみました。
今回のものが、その補完になります。しかも、超絶強力な...
注意点
- ぶっちゃけ、近くにデータ分析をした経験のある人がいないと、辛いです。ChatGPT や Code Interpreter は迷走をすることがあります。データ加工はそれに遭遇しやすいです。
- データ加工で何をどうする必要があるのか? その指示を具体的に Prompt の中で記載してください。
迷走例 #1: https://chat.openai.com/share/3ed08a7e-fa74-4e2a-a312-03f93ca91042
迷走例 #2: https://chat.openai.com/share/e1d79dc0-7078-459b-897d-de2eeb04be11
- 機密情報を扱うのは、現状は避けたほうがいいです。OpenAI の方で明言されていません。探せていません。
- 巨大なデータを扱うのも無理です。現状 (2023年8月2日現在) は Code Interpreter は 10GBのストレージ。一度のファイルのアップロードは 512MBまで。コードの実行時間は120秒まで、となっています。
Tips
巨大なデータに応用したい、という方は多いです😊
ここで Code Interpreter を使って作成した Python のコードを PySpark に改造して。Spark の Cluster で動かす道があります😊
以下、おススメの Spark 環境です。
Azure DataBricks:
https://learn.microsoft.com/ja-jp/azure/databricks/introduction/
Microsoft Fabric - Data Engineering:
https://learn.microsoft.com/ja-jp/fabric/data-engineering/data-engineering-overview
これも後日、時間を作って試そうかなー😎
加工前のデータについて
先のデータの分析のチャレンジでも、政府観光局の訪日外客者数データを扱いました。
実は、この訪日外客数のデータは、Power BI Desktop (無料版) を使ってのデータ分析の処理のハンズオンで使っているものなんです。
このBlogからの [参考] に 4つの Blog Post があります。ここで扱っているデータ加工の内容は、実社会・ビジネスで本当によくある場合をカバーしています。ハンズオン後に、即座に実データでワークショップ・演習をやっていますが、感覚値ですが80-90%以上は先の Blog でいけますね😎
その中のデータクレンジング編 を Code Interpreter でチャレンジします。
どんなデータ構造になっているんでしょうか? 見ていきましょうー
これが元データのスクショです。訪日外客数が、国と月でクロス集計されています。
そして、1つのExcelシートに、1年分のデータが入っています。
実は、データの列が2019年までと、2020年からで異なります。国が、2023年以降はA,B列にまたがるようになりました。人が見る分にはたいして影響はないんですけどね。データソースにする際には、これが厄介です😅
分析用のデータの構造ですが。以下の図の様に、同じデータは1つの列に纏めるのが大事です。構造化データというやつですねー
以下を行う必要がありますね。
- 列の構造の異なる複数シートのデータを、1つのデータセットに結合する
- クロス集計の行列変換を行う
PythonのPandasでそれらが出来るのはわかっています。後は、それを如何に Prompt の指示で実現できるか? ですね。例示が難しいですよね? データの構造は...
リソース
こちらに、ChatGPT の Prompt を晒します! つまり、公開します。
Prompt at ChatGPT:
- この Prompt では、データ分析にまつわる、ほぼ全てのフローをやってみています。この Blog では、データ加工に焦点をあてるので、前半部分だけにとどまっている点にご注意!
そして、こちらが、Prompt 部分だけの文字列たちです。
Prompt at GitHub:
手順
1. ファイルのダウンロード
以下よりファイルをダウンロードします。
[時系列推移表]の[国籍/月別 訪日外客数 (2003年-2023年) (Excel)]をダウンロードします。
ダウンロードしたファイルは、こちらにもあります。
2. Prompt 開始
まず、大まかな作業指示をします。
Prompt:
### 役割 ###
データエンジニアのプロフェッショナルとして振舞ってください。
### 指示 ###
アップロードしたExcelのデータのクレンジングをします。その後、データの分析に入ります。指示をするまで分析には入らないでください。
Step by Step で実行してください。
次です。
ファイルをアップロードします。それと同時に以下の Prompt を入力します。
### 指示 ###
最初にアップロードしたファイルから、「年月日」「国名」「訪日外客数」をもつデータを作成します。グラフの中の全ての文字列は、このフォントを使ってください。
### Excelファイルの特徴: ###
- このExcelファイルは年毎にシートで管理されています
- 各シートの上位3行はデータには不要
- 2019年以前のシートと、2020年以降のシートで国名の列のレイアウトが異なっています
- 2020年以降のシートはA列に中東地域と北欧地域の下のB列に国名が入っている行があるので、その場合は、B列の文字列を国名にしてください
- 「伸率」「累計」も削除してください。
- 「総数」「計」「累計」「地域」の文字を含むデータを削除してください。
- 国名データの前後のスペースを削除してください。
- 年月日は、YYYY/MM/01という日付型に変換をしてください。
だいぶ長文になってきましたね。そして、「Excelファイルの特徴:」に、具体的に行ってもらいたいデータ加工の手順を指示しています。
以下、気づきです。
- Excel のファイルをデータとして提供した場合は、最初のシートのみ参照することが多いです。
- 元のExcelには「国名」という列はありません。行列変換 (Pivot) をしている最中に、列名が無いので勝手に削除したりするコトがありました。
- 「総数」などの集計データを削除することはしてくれることが殆どなかったです。Prompt の仕方で出来る気もしますが...😅
まずは、アップロードしたファイルの中身を確認してくれます。
そして、最初の指示である「このExcelファイルは年毎にシートで管理されています」を確認。その後、同じくシートについてである、「2019年以前のシートと、2020年以降のシートで国名の列のレイアウトが異なっています」の作業に入ります。
2003年をサンプリングとしてデータの内容を確認しています。
いい感じ。
で、すかさず、2020年以降、つまりもう一つのレイアウトの確認にいきます。
エラーが出ていますね。
で、Code Interpreter はエラーの修正を試みるんです。ここ毎回思いますが、マジすげぇ😍
で、この通り。
マジで、すげぇ!
ちょっと気になった個所をのぞいてみましょう。
この部分のコードが以下なんです。
# Define a function to cleanse the data for years 2020 and onwards
def cleanse_data_post_2020(df, year):
# Remove '伸率', '累計' columns
df = df.drop(columns=[col for col in df.columns if '伸率' in col or '累計' in col])
# Use B column as the country name if A column has a region
df[df.columns[1]] = df[df.columns[1]].where(df[df.columns[1]].notna(), df[df.columns[0]])
# Remove rows where the country column is '総数', '計', '累計', or ends with '計'
df = df[~df[df.columns[1]].isin(['総数', '計', '累計', '中東地域'])]
df = df[~df[df.columns[1]].str.endswith('計')]
# Trim whitespace from country names
df[df.columns[1]] = df[df.columns[1]].str.strip()
# Melt the dataframe to a long format
df_melted = df.melt(id_vars=df.columns[1], value_vars=df.columns[2:],
var_name='月', value_name='訪日外客数')
# Convert month names to numbers
df_melted['月'] = df_melted['月'].apply(month_name_to_number)
# Convert year and month to datetime format
df_melted['年月日'] = pd.to_datetime(df_melted['月'].astype(str) + '/01/' + str(year), format='%m/%d/%Y')
# Drop the month column
df_melted = df_melted.drop(columns=['月'])
# Rename the country column
df_melted = df_melted.rename(columns={df.columns[1]: '国名'})
# Reorder the columns
df_melted = df_melted[['年月日', '国名', '訪日外客数']]
return df_melted
# Cleanse the 2020 data as an example
cleaned_2020 = cleanse_data_post_2020(sample_2020, 2020)
cleaned_2020.head()
これね。毎回 Code Interpreter 使っていて思うんですが。
はい、確かに私もこの程度のコードは書けますよ。でも、如何に GitHub Copilot を駆使したとしても。Code Interpreter の作成・実行する時間と比較したら。私がコードを書いた方が、圧倒的に遅いです。
目測:
- Code Interpreter: 5分
- @dahatake 氏: 60分 は欲しい😅
分かります? 圧倒的な早さ。そして @dahatake 無しでも出来ちゃいますよね😅
Prompt:
作成されたデータの内容を確認したいので、基礎解析を行ってください。
そして、何も具体的には指示していないのですが、「基礎解析」という言葉だけで、可視化も始めてくれている。
強すぎるでしょ!
データ加工を行う際には、内容の確認は必須です。指示通り出来ていないコトが多々あります。ある程度の数のサンプリングを行って、処理結果の検証を必ず行ってください。
Prompt:
データをCSV形式で保存してください。
保存したCSVファイルはこちらです。
最後に
実ビジネスのシナリオでの応用範囲の広いデータクレンジングのシナリオ。これが Code Interpreter で動いてしまったのを確認したのは本当に衝撃でした。
前にも書きましたが、実現場でのデータ加工で武器になるTipsを再掲します:
- 複数ファイルや複数シートのマージ
- 行列変換
これが出来たんです😍!
となると...
ChatGPT + Code Interpreter の組み合わせ。データ分析にまつわるタスクを整理すると以下の様になるかと。
- 赤は人がやらねばならないところ
- 白抜きは任せられそうなところ
実社会・ビジネスで使うには、課題もあります。ですが、このベースの動きをやらせただけで。環境作成から開始して、作業時間はそうですね4時間も無いと思いますよ。やり方が分かった今は、おそらく15分で出来るでしょう。
データ加工ツールはいくつもあります。でも、結構な時間をかけてのトレーニングが必要なんです。
そして、データ加工の主役はエンジニアではないです。社会やビジネスの現場をご存じの皆さんです。エンジニアは、ツールの使い方ではなく、セキュアでパフォーマンス抜群で安心して動く裏方の整備。ここはエンジニアの腕の見せ所なんですが。これは今もこれからも変わらない。
Digital Transformation の肝は、Digigtal Feedback Loop だと思います。
デジタル以前の世界では、これがほぼ実現不可能だった。これが比較的容易に実現できるようになった。それでも、データの利活用は殆ど全ての企業で未だに未着手だったりしていませんか?社員・職員の方。データを見る事はできますか?
いよいよデータの民主化が始まると思います。