Help us understand the problem. What is going on with this article?

Scalaとjsoupでパチンコ屋の出玉情報をクローリングする

More than 1 year has passed since last update.

ただの集団 Advent Calendar 2018 の1日目の記事。

はじめに

パチンコ屋の出玉情報を公開するサイトは増えてきたが、情報は各ページに散っていて、WebAPIも提供されていないので、情報を集約して活用するにはクローリングを行う必要がある。

仕事ではScalaを勉強中なので、Scala + jsoupPAPIMO-NETをクローリングするサンプルを実装する。

なぜjsoupか?

  • Akka HTTP Client
    • 本来はScalaらしくAkka HTTPを使用する予定だったが、単独ではスクレイピングに向かないので別途パーサーを使う手間を考慮してやめた。
  • scala-scraper
    • Scala製で使いやすそうだが、しばらくメンテが行われていないように見受けられる。一般にScalaはJavaよりもバージョンアップにかかるコストが高く、メンテが定期的に行われていないライブラリは後のリスクとなる恐れがあるので見送った。
  • jsoup
    • javaのHTML Parserライブラリ。cssセレクタが利用でき、 Try jsoupを使用したブラウザ上での手軽な検証も魅力。

クローリング時の注意点

robots.txt

クローラーに対するサイトのポリシーはドメインの直後のrobots.txtに書かれているのでクローラーは従う必要がある。
今回の対象のサイトではCrawl-delay: 10とあるため10秒間隔でアクセスする。
また、Disallowで許可されていないページは避けてクローリングを行う。

実装する

完成したコードは下記にアップした。
https://github.com/nhiguchi/ps-crawler-sample

jsoupでHTTPリクエストをする

このサイトでは画面遷移がGETだけではなくPOSTの場合もあるので、リクエスト用メソッドを両方用意した。

def requestByGet(url: String) = {
  getConnection(url).get
}

def requestByPost(url: String) = {
  getConnection(url).post
}

def getConnection(url: String) = {
  Thread.sleep(10000)
  Jsoup.connect(url).userAgent("ps crawler").timeout(30000)
}

ホールトップ → 機種一覧

対象ページ例 http://papimo.jp//h/00031701/hit/top

jsoupの基本はDocumentに対してselectメソッドでCSSセレクタを使って要素を特定していく。
属性を取得する場合はattrメソッドを使う。

val SiteDomainUrl = "http://papimo.jp"
val HallTopUrl = SiteDomainUrl + "/h/00031701/hit/top"

println("Start.")
val today = LocalDate.now()

// ホールトップ
val hallTopDoc = requestByGet(HallTopUrl)

// ホールトップ → 機種一覧
val modelListUrl = SiteDomainUrl + hallTopDoc
  .select(".menu-top li")
  .get(2)
  .select("a")
  .attr("href")
println(s"modelListUrl=[$modelListUrl]")
val modelListDoc = requestByPost(modelListUrl)

機種一覧 → 台一覧

対象ページ例 http://papimo.jp/h/00031701/hit/index_sort/213120003/1-20-179596

// 機種一覧 → 台一覧
val machineListUrls = modelListDoc
  .select("ul.item")
  .select("a")
  .asScala
  .map(SiteDomainUrl + _.attr("href"))
println(s"machineListUrlsSize=[${machineListUrls.size}]")
println(s"machineListUrls=[$machineListUrls]")
val machineListDocs = machineListUrls.map(requestByGet)

台一覧 → 台詳細

対象ページ例 http://papimo.jp/h/00031701/hit/view/301

// 台一覧 → 台詳細
val machineDetailUrls = machineListDocs.flatMap {
  _
    .select(".unit_no")
    .asScala
    .map(SiteDomainUrl + _.select("a").attr("href"))
}
println(s"machineDetailUrlsSize=[${machineDetailUrls.size}]")
println(s"machineDetailUrls=[$machineDetailUrls]")
val machineDetailDocs = machineDetailUrls.map(requestByGet)

台履歴用case class

case class MachineHistory(
                           machineNo: Int,
                           machineName: String,
                           bbCount: Int,
                           rbCount: Int,
                           totalStartCount: Int,
                           finalStartCount: Int,
                           maxOutputMedal: Int,
                           differenceMedal: Int,
                           graphUrl: String,
                           date: LocalDate,
                         )

台詳細を取得

対象ページ例 http://papimo.jp/h/00031701/hit/view/301

// 台詳細を取得
val machineHistories = machineDetailDocs.map { doc =>
  val graphRelativeUrl = doc
    .select(".graph-some td")
    .last()
    .select("img")
    .attr("src")
  val graphUrl = graphRelativeUrl match {
    // 絶対パスで返ってくる場合と相対パスで返ってくる場合がある
    case url if url.startsWith("http") => url
    case url => SiteDomainUrl + url
  }
  MachineHistory(
    machineNo = doc.select(".unit_no").get(0).text().diff("番台").toInt,
    machineName = doc.select(".name").text(),
    bbCount = getFromMachineDetail(doc, "BB回数"),
    rbCount = getFromMachineDetail(doc, "RB回数"),
    totalStartCount = getFromMachineDetail(doc, "総スタート"),
    finalStartCount = getFromMachineDetail(doc, "最終スタート"),
    maxOutputMedal = getFromMachineDetail(doc, "最大出メダル"),
    differenceMedal = getDifferenceMedal(graphUrl),
    graphUrl = graphUrl,
    date = today,
  )
}
println(machineHistories)

def getFromMachineDetail(machineDetailDoc: Document, name: String) = {
  val value = machineDetailDoc.select(":containsOwn(" + name + ")").select("p").text()
  value match {
    case "-" => 0
    case _ => value.replace(",", "").toInt // 数字の桁区切りのカンマは削除
  }
}

出玉グラフの画像解析

最も重要な情報である差枚数がHTML上にないためグラフ画像を解析する。
javax.imageio.ImageIOを使用して最も最新の差枚数を取得している。

def getDifferenceMedal(graphUrl: String) = {
  val graphImage = ImageIO.read(new URL(graphUrl))
  val rightmostY = (0 until graphImage.getWidth).flatMap { x =>
    (0 until graphImage.getHeight).map { y =>
      val color = graphImage.getRGB(x, y)
      val r = color >> 16 & 0xff
      val g = color >> 8 & 0xff
      val b = color >> 0 & 0xff
      (x, y, r, g, b)
    }
  }.filter(t => t._3 == 236 && t._4 == 34 && t._5 == 52)
  .maxBy(_._1)._2
  (114375 - (375 * rightmostY)) / 9
}

解析して出力

実運用するのであればDB等に保存した方が良いが、今回は一旦機種ごとの日別差枚数を集計して出力してみた。

// 解析して出力
val differenceMedalsByModel = machineHistories
  .groupBy(_.machineName)
  .mapValues(_.foldLeft(0)(_ + _.differenceMedal))
println(differenceMedalsByModel)

println("End.")

出力結果

期待通りの結果が得られた。
(値はダミー)

Map(スーパーミラクルジャグラー -> 777, SLOT魔法少女まどか☆マギカ -> -777, ゴーゴージャグラー -> 777, アイムジャグラーEX-AE グリーンパネル -> -777, アイムジャグラーEX-AE -> 777, 押忍!番長3 -> -777, ニューパルサーSPⅡ -> 777, ハッピージャグラーVⅡ -> -777)

実運用に向けて

  • 対象サイト側のHTMLに修正が入るとスクレイピングができなくなってしまうので何かしら検知する仕組みが必要。
  • パチンコ屋が閉店している時間は一般に23:00~10:00なので、閉店時間中に時間指定で実行できる仕組みが必要。
  • 1サイトであればベタで書いても良いがサイトが増えてくると大変なので、ある程度処理を共通化してコードをメンテせずにJSON等で書かれた定義をメンテすれば良いようにしたい。

まとめ

  • jsoupを用いることで簡単にクローラーが作成できた。
  • クローラーを使用することでパチンコ屋の情報収集が自動化できた。対象店や対象サイトを増やしていけば店別・日別の比較が簡単にできるようになるので、情報を活用すれば台選定時の確度向上に役立つと思う。

完成したコードは下記にアップした。
https://github.com/nhiguchi/ps-crawler-sample

Why do not you register as a user and use Qiita more conveniently?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away