はじめに
オス!
【前回記事】
3行で自己紹介
- 元光通信の営業マンだよ
- 31歳でプログラミング勉強し始めたよ
- 32歳で法人向けwebアプリで起業し、今会社6年目突入したよ
3行で記事の概要
- さいきょうCrawlerつくったよ
- 出来はすんげー良いよ
- 試しにメルカリのGMVほぼ一致させちゃうよ
まずは結論
メルカリ2024q2(10~12月)のGMVは
2895億円
と予想。
どゆこと?
つまりアタイのCrawlerで集めたデータからsumしたアタイ(値)だよってこと
経済アナリストみたいに前四半期のGMVから算出してるわけじゃないよってこと
いいからこの手順通りにデータsumして
データは14GBくらいあるから気をつけて
メルカリデータDLリンク
【BigQueryに入れてsumする方法】
①BigQueryにダウンロードしたデータを投入
bq load --source_format=CSV --skip_leading_rows=1 --autodetect
\ --preserve_ascii_control_characters=true
\ {DATASET}.{TABLE} mercari_2024q2_GMV_masked_data.csv
②sumする
select sum(price) as gmv
from {PROJECT}.{DATASET}.{TABLE}
③289503899475
【python pandasで頑張る方法】
①pandasでread_csvする
# データデカいので気をつけて
# ちょっとデータを見てみるコード
pd.read_csv("mercari_2024q2_GMV_masked_data.csv", nrows=10)
# データ全読み込みする
df = pd.read_csv("mercari_2024q2_GMV_masked_data.csv")
②sumする
df.price.sum()
③289503899475
データに関して補足
- メルカリをCrawlしたデータ
- データは90%maskしているが、10%程度普通に確認できる
※まあ、ニキ達なら中のデータ見れば大体わかるはず
GMV誤差が5%未満だったらニチャチャ
お金無いからおしごとちょーだい!
ウヒョヒョ