つかれたる牛のよだれはたらたらと千万年も尽きざるごとし
##序
漫画サイト。
それは漫画がブラウザで読める web サイトのことである。
漫画サイトには大きく分けて二種類ある。一方が違法サイトで、もう一方が合法サイトである。
仕組みは表面上はどちらもよく似ている。内部的には違うが、目的が違うので手段が違うと言っていいだろうが、大まかには同じようなものだ。
ここでは、違法サイトについて調べてみたい。
まず、あるひとつの違法サイトでのコンテンツの総数を数えてみたい。
現段階で、数え上げたのは 51717 のタイトル数だった。これは全てがコミックの 1 巻分ではなくて、第何話や、週刊誌の第何号というものを含めての数で、プラスこの数の 20% 分くらいがまだ隠れ層になっていて表出していない。そしてコンテンツは日々、運営者によって更新されるので、時間とともに数は増えていく。
隠れ層 . . . これはどう云うことかというと、今回とった手法が関係しているが、例えば 100 回ランダムに違法サイトのページアドレスを出して、データベースに記録するということを繰り返して、次回はデータベースに記録されているもの以外をデータベースに記録していくようにしたとして、100 回のうち 20 回ほどが、記録されてないアドレスになってきた場合、続けていくと100 回のうち 15 、10 、5 とだんだんと記録されていないアドレスがランダムでは出にくくなっていくことになる。
このことをここで、隠れ層と云った。隠れ層とは云わないのかもしれない、全部ではないということ。隠れ層を見つけ出すという目的ではなく1、ある時点の表出しているコンテンツのメタ情報について考察していく。
####前提
あくまでも、違法サイトのコンテンツページのアドレスを前もって知っているわけではなく、ページにあるマンガ画像が表示されない方法で、ダウンロードせずにコンテンツが埋め込まれている URL を収集して、漫画のタイトルや著者情報を分析していくというパズルであり、漫画読みたいということではない。
読みたい場合は、まずは合法マンガサイトを掘り進んで潜り込んでみるといい。
どの漫画家が作品を何点公開しているのかなど並べて見るプログラムを考えて書いてみるなどすると、方法などが見えてくる。
🍄
マンガサイトにつひて
この記事は、Ruby 、 SQLite3 、 スクレイピング、正規表現についての考察という範囲で、超ビギナー向けである。この範囲での経験がどれも 1 ヶ月以内の未熟者が書いているので、それ以上の内容であることはありえない。
フレームワークとは無縁。
スタンスとしては出版社よりは、マンガ家個人に寄りそう必要なデータを明瞭にオープンに出したい。
このスタンスにおいては漫画家に不利益になることには言及しない。出版社、および漫画家の権利保守のための作業の軽減に役立つことも提供できる可能性はあり。
つづく ... マンガサイトにつひての色々な事情 02
関連記事
-
それもパズルなり。 ↩