概要
Mercariの商品画像をスクレピングし、ファッションをカテゴリーごとに分類する深層学習モデルを作ります。
ただし、今回はメンズのトップスのみに限定させていただきます。
調査の流れ
- スクレイピング
- データチェック
- モデル作成
1. スクレイピング
スクレイピングの流れは、
商品ごとに写真のURLをスクレイピング→URLから商品の画像をダウンロードというものです。
以下は商品画像のサンプルです。
画像のURLを確認すると
https://static.mercdn.net/item/detail/orig/photos/m97553311374_2.jpg?1718502543でした。
画像のURLはhttps://static.mercdn.net/item/detail/orig/photos/{商品のID}?1718502543という構造であることがわかったので商品IDを取得すればいいことがわかりました。
実際のサイトにて検証するとmerItemThumbnail fluid__a6f874a2のid部分にて商品idが格納されていました。
今回はこの部分をサイトからスクレイピングしていきます。
各カテゴリーごとに50ページスクレピングします。
1ページに120商品あるので、1カテゴリーごとに最大で6000枚の写真を取得できる計算になります。
カテゴリーごとに何枚写真があるかも集計してみました。
どのカテゴリーもだいたい6000枚あることがわかりました。
次回予告
今回の記事は情報の集め方のみ取り扱いました。
次回は取得した画像を各カテゴリーごとに分析し、しっかり画像を取れているかや服の特徴等を調べようと思います。