はじめに
「M-1グランプリ」という漫才の賞レースはご存知の方も多いかと思いますが、「M-1エントリーナンバーバトラー」と聞いてピンとくる方は少ないかもしれません。
「M-1エントリーナンバーバトラー」とはM-1グランプリ2023王者の『令和ロマン』さんが考案したゲームで、M-1に出場する芸人さん達のエントリーナンバーを使って、該当するコンビの実績データからスコアを算出し競うといった内容です。
- 任意のエントリーナンバーを指定する
- 公式サイトのコンビ情報の検索で指定したエントリーナンバーを入力する
- ヒットしたコンビの過去大会の成績を基にスコアを算出する
- 1〜3を繰り返し最もスコアを稼いだプレイヤーの勝利
参考動画:
この動画を観て「どんな芸人さんがスコア上位になるんだろう?」「スコアのばらつきを見てみたいな」といった純粋な興味が湧き、今回10330組分のデータを集計するに至りました。
WebスクレイピングはNG
調査にあたって、M-1グランプリ事務局様にサイトのポリシーについてお問い合わせをしたところ、Webスクレイピングは禁止されており、手作業でのデータ集計が必須であると分かりました。
(画面操作のシミュレートも多分NG)
そこで、まずは愚直にコンビ1組ずつ詳細ページを開き、スコアを計算することにしました。
ところが、私は幼少期にそろばん教室へ通っておらず暗算が非常に苦手であるため、1つのレコードを作成するのに1分以上掛かってしまいました。
このペースでデータ集計をしていたら年が明けてしまいます。
「今からでも間に合うのだろうか…」
そう思いながら、地元のそろばん教室を調べようとしたその瞬間、
↑このアイコンが頭に飛び込んできました。
Chrome拡張機能を作ってみる
ということで、今回はChrome拡張機能を作ってデータ集計を行うことにしました。
もしかしたら、もっと良いアプローチがあるかもしれませんが、技術的な興味もあり、この方法を試してみることにしました。
要件を整理する
改めて要件を整理しました。
- 現実的に可能な操作範囲内で、全てのコンビのスコアを算出し、その結果をエントリーナンバーを含むコンビ情報に紐づけて保持する
- サイトへのアクセスを自動化することは禁止とする
Chrome拡張機能の仕様を考える
前述の要件を踏まえて、機能の振る舞いを決定しました。
仕様
拡張機能のアクションボタン(アイコン)をクリックすることで実行される。
1.タブの処理
- 現在ウインドウ内で開かれているすべてのコンビ詳細ページについて、以下を実行する
- スコアを算出し、コンビ情報とスコアを組み合わせたレコードを作成
- 処理が完了したタブを閉じる
2.スプレッドシートへの保存
- 作成された全てのレコードをGoogleドライブ上のスプレッドシートに追記します
Chrome拡張機能を実装する
大きく3つのステップに分けて実装を進めました。
[STEP1]拡張機能の雛形作成
まずは拡張機能の基本構成を準備しました。
以下の4つのファイルを作成し、それぞれ役割を明確に分けています。
- manifest.json: 拡張機能の設定ファイル、権限やリソースを定義する
- background.js: アクションボタンのクリックを検知して処理を開始する
- calculate.js: ページ内容からスコアを算出する
- spreadsheet.js: スプレッドシートへデータを書き込む
[STEP2]Google Sheets APIの繋ぎ込み
次に、Google Sheets APIを利用し、スプレッドシートにデータを書き込むための仕組みを構築しました。
-
認証情報の作成
Google Cloud ConsoleでChrome拡張機能向けの認証情報を生成。 -
manifest.jsonの更新
Google Sheets APIにアクセスするための権限を追加する。 -
書き込みロジックの実装
background.jsに認証処理を組み込み、データをスプレッドシートに追記する処理を記述。
[STEP3]スコア算出ロジックの構築
最後に、各コンビのスコアを生成するロジックを実装しました。
詳細は割愛しますが、過去大会の結果部分のテキストを抽出してスコアを生成する仕組みを実装しました。
完成!
アイコンはなんかローカルにあった緑のテニスプレイヤーの画像にしています。
データを集計する
実際に行った作業は以下の通りです。
1. 2024年の出場コンビ一覧ページを開く
2. バックグラウンドタブでコンビ詳細ページを開く(大体20件ずつ)
3. 緑テニスプレイヤー押下
コンビ詳細ページのタブが全て閉じられ、スプレッドシートに追記される。
4. 2,3を繰り返す
気を付けたこと
- 拡張機能の管理画面が開かれていると何故かタブの処理が失敗するので閉じるようにした
- サイトへの負荷を軽減するため、念のため他の利用者が少ない深夜帯に作業を行うよう心がけた
- スプレッドシートにレコード数とナンバー重複の有無を表示させ、ミスをしていないか確認しながら作業を進めた
この単純作業を計5〜6時間実施して、すべてのデータを集計することができました!
さいごに
集計したデータを元にランキング表などを作りましたが、完全に趣味の域になってしまうため別記事(note)で公開しました。
興味があれば是非覗いてみてください。
※すみません、noteまだ完成していません。