概要
WEAR公認ユーザーのWEARISTAにはどうしたらなれるのかについて調べました。
調査の流れ
- WEARISTAになるための仮説設定
- 仮説の確認
- モデルの学習とテスト
- まとめ
WEARとは?
ファション通販サイトZOZOTOWNで有名な株式会社スタートトゥデイが運営するファッションコーディネートサイト のことである。このサイトでは他のユーザーが投稿したコーディネートを見ることができる。
WEARISTAとは?
WEARISTAとは一言で表すとWEARから公認されたユーザーである。
(詳しい定義はこちらから)
現在、WEARISTAは672名いる。WEARのユーザーは5,936,964人いるので全体の0.01%ほどしかいないことになる。
今回の調査ではプロフィールに記載されている情報だけからWEARISTAかどうかを判断するモデルを作成する。
スクレイピングした情報
- ユーザー名
- 身長
- 性別
- 髪型
- 他のSNSをやっているかどうか
- 自己紹介文
- お気に入りブランド
- よく着用するブランド
- コーディネート数
- お気に入り数
- フォロワー数
- フォロー数
- コーディネートに関するタグ
- アイテムに関するタグ
- 投稿についたいいね!の平均
- 投稿についたいいね!の分散
- プロフィール画像
対象
- WEARISTA(409人)
- WEARISTAではないユーザー(4259人、SHP STAFFは除く)
スクレイピングした日付
2023年12月30日
1. WEARISTAになるための仮説
上記の17項目にうち、WEARISTAになる上で重要だと推測する項目を列挙する。
-
プロフィール画像
- 投稿写真が一番目につきやすいが、WEARISTAのプロフィール画像を見ると大体カメラマンに撮ってもらったような画像が多いため
-
年齢
- ユーザーの年齢層は10〜20代がメインなので、当然そのレンジに入っている方が好ましい
-
身長
- 身長が高いほど、スタイルが良く見えてコーディネート写真も映えやすい
-
フォロワー数
- 公式から10,000人以上が目安であると発表されている
-
他のSNSをやっているかどうか
- 他のSNSからの集客ができるため、フォロワーが増えやすい
-
コーディネート数
- コーディネート数が多いほど人の目に付きやすく、他のユーザーから支持されやすくなる
-
お気に入りブランド
- 目立つ服装をする必要があるため、他のユーザーとは異なったブランドを着用すると予測する
-
よく着用するブランド
- 目立つ服装をする必要があるため、他のユーザーとは異なったブランドを着用すると予測する
-
コーディネートに関するタグ
- 投稿のいいね!数を伸ばすために人気のあるタグをつけると予測する
-
アイテムに関するタグ
- 投稿のいいね!数を伸ばすために人気のあるアイテムをつけると予測する
2. 仮説の確認
上記の項目それぞれについて、WEARISTAとWEARISTAではないユーザーとで差があるかを確認する。
プロフィール画像
user_type=2がWEARISTAであり、user_type=3がWEARISTAではないユーザーである。
左右に2つのグループがあるように見えるが、色を確認するとWEARISTAとWEARISTAではないユーザーが綺麗に分かれているわけではないということがわかる。
つまり二次元に圧縮されたプロフィール画像はWEARISTAかどうかを見分ける際にあまり有効ではないことがわかる。
年齢
分布の比較
ヒストグラムの形状を比較するとWEARISTAの方がピークを迎える年齢が高いという結果となり、仮説に反した。ただ年齢は欠損してるユーザーが多かったので年齢が高い人ほどしっかり記入しやすいという傾向も考えられる。
身長
性別ごとに比較した。
男性については、175cm~180cmあたりに注目するとWEARISTAの方が多く確認される。
女性については、WEARISTAではないユーザーは160cm辺りでピークを迎えているがWEARISTAは157cmと165cmの二点でピークを迎えている。(2峰性がある)
つまり男性は身長が高い方がWEARISTAになりやすく、女性は平均身長(160cm)から外れている身長の方がWEARISTAになりやすいと推測できる。
フォロワー数
分布の比較
対数変換を施した。
ヒストグラムの形状を比較すると、WEARISTAとWEARISTAではないユーザーとで綺麗に分かれた。
フォロワー数はWEARISTAになるための重要な要素であることがわかった。
他のSNSをやっているかどうか(連携しているSNSの数)
分布の比較
ヒストグラムの形状を比較するとWEARISTAではないユーザーは1でピークを迎えているがWEARISTAは2~3でピークを迎えているので連携しているSNSの数はWearistaになるための条件に関係あることが推測できる。
コーディネート数
対数変換を施した。
Wearistaの分布には2峰性が確認され、その一方のピークはWEARISTAではないユーザーのものと一致する。
コーディネート数が圧倒的に多い場合、Wearistaである確率が高くなるため、Wearistaになるための条件に関係あることが推測できる。
お気に入りブランド
男女ともに多少の並び順は違えど、WEARISTAとWEARISTAではないユーザーのランキングに浮上するブランドに違いはなかった
よく着用するブランド
男女ともに多少の並び順は違えど、WEARISTAとWEARISTAではないユーザーのランキングに浮上するブランドに違いはなかった
コーディネートに関するタグ
男女ともに多少の並び順は違えど、WEARISTAとWEARISTAではないユーザーのランキングに浮上するタグに違いはなかった
アイテムに関するタグ
男女ともに多少の並び順は違えど、WEARISTAとWEARISTAではないユーザーのランキングに浮上するタグに違いはなかった
投稿についたいいね!の平均
wearistaの方が平均と分散が大きく、平均いいね!数が高い人は言わずもがな、低い人でもwearistaである人がいるので関係あるかどうかは不明
投稿についたいいね!の分散
3. モデルの学習とテスト
- 使用モデル
- xgboost
- モデルの出力はWEARISTAである確率
- 全データを7:3に分割し、学習データとテストデータに分けた
- 学習データを8:2に分割し、学習データと検証データに分けた
- 学習データでモデルを学習
- 検証データで学習具合を可視化
- テストデータで最終的な評価を決める
学習曲線
エポック数が増加しても訓練データと検証用データで誤差率の乖離は大きくなっていないので過学習はしていないことがわかる
モデルを解釈する
特徴量重要度
フォロワー数や、身長、投稿に対するいいね!数に関する特徴量が重要であるとわかる。
テストデータによるモデルの最終評価
- 閾値は0.9に設定し、0.9以上であればWEARISTA,0.9未満であればWEARISTAではないユーザーと判断する
- 不均衡データであり、すべてWEARISTAではないユーザーと判断すると正解率は91%である
- 特徴量重要と同様に、SHAPでもフォロワー数や身長に関する特徴量が重要であった
- recall=0.63であることから厳しめではあるが、AUCと正解率を考慮するとこのモデルはしっかりWEARISTAかどうかを識別していると言える
4. まとめ
- ヒストグラムや特徴量重要、SHAPからもわかるように圧倒的にフォロワー数がWEARISTAになる上で重要な要素であることがわかった。
- フォロワー数を伸ばすには、質の良い投稿をしつつも、投稿数も高い水準で維持してかつ、同様のことを他のSNS(intsagramやtwitter等)でも行い、それらのSNSからも集客する必要がある。
- 投稿内容については、ブランドやタグのランキングを比較するとWEARISTAとWEARISTAではないユーザーとで大きな違いは確認できなかったので撮り方や構図も重要である可能性がある。