0
Help us understand the problem. What are the problem?

posted at

updated at

Web小説の分析をしたいと思った人に読んでもらいたい話

動機

小説のタイトルって色んな通説があるけど実際の所どうなの?と思ったので、データサイエンスの力を借りして検証してみたくなりました。
著作権法改正で情報解析が目的であれば著作物を複製・翻案することができる12(一部例外もあるので、詳細はちゃんと自分で調べてください)ということで、Web小説からデータ収集を行いたいと考えました。
その際、調べて分かったことを記事にしたので、同じことを思った人の役に立てばと思います(調べたサイトのリンクも貼っておくので、詳しくはそちらをご覧ください)。
以下の5つの小説投稿サイトを対象に調べました。結論だけ知りたい人は結論へ。

小説家になろう

日本最大級の小説投稿サイト。「なろう系」と呼ばれるジャンルが出来るくらい有名です。
「なろうデベロッパー」という開発者向けツールが提供されていて、「なろう小説API」を使うことで簡単にデータ収集を行うことが出来ます
タイトル、あらすじ、ランキング、評価ポイント等の情報を収集することが出来ます。
小説家になろうでの分析は既に多くの人がされていて、Qiitaにも記事が多くありました34
ただし、利用可能なのは「なろう小説API」で収集できるデータのみで、スクレイピングによる小説の全文取得等のデータ収集は許可されていないので注意してください5

カクヨム

はてなブログで有名な株式会社はてなと大手出版社のKADOKAWAが運営する小説投稿サイト。
カクヨムは解析行為に対して利用規約の禁止事項に明記されています。実際にお問い合わせして下さった方もいらっしゃいました6

第14条(禁止事項等)

  1. 本サイトまたは本アプリを逆アセンブル、逆コンパイル、リバースエンジニアリング、その他本サイトまたは本アプリのソースコード、構造、アイデア等を解析するような行為

出典:カクヨム(利用規約)

アルファポリス

小説以外にも漫画、絵本と幅広いジャンルがある投稿サイト。
アルファポリスの利用規約を確認し調べている人がいないか探しましたが、分からなかったのでお問い合わせしました。
結果はWebスクレイピングによるデータ収集はダメということでした。また、勝手にやると不正アクセスとしてアクセス禁止処理をしますとのことです。

エブリスタ

DeNAとNTTドコモが設立した合弁会社「株式会社エブリスタ」が運営する小説投稿サイト。近年、DeNAが持ち株すべてを電子書籍を取り扱うメディアドゥに売却。コンテストが豊富で長編から短編まで様々なジャンルのコンテストが開催されている。
エブリスタもよく分からなかったので、お問い合わせで直接お尋ねしました。
結果は目視でデータを分析する分には問題ないが、ソフトウェアやプログラムなどを用いたデータ分析はダメということでした。また、コミュニティガイドラインの禁止行為にも書かれていたようで、お手数をおかけしました。

禁止行為
(13)本サービス上で提供されているソフトウェア等をリバースエンジニアリングその他の方法により解析する行為
(15)本サービスで許可されていない通信端末、ソフトウェア、プログラム、ハードウェアを使用、配布する行為、またはこれらと本サービスを組み合わせる行為

出典:健全で安全なサービス運営のためのコミュニティガイドライン

ただ、「なろう小説API」のようなAPIに関して前向きに検討していただけるそうなので、今後に期待しましょう。

ノベルアッププラス

比較的新しく、アバターやスタンプといったSNSに近い仕様が特徴的な小説投稿サイト。運営様による詳しいデータ分析が公開されている7ので、分析用のデータ提供にも期待。
ノベルアップ+も利用規約を見てよく分からなかったので、他の小説投稿サイトと同様にお問い合わせしてみました。ただ、通常は要望のお問い合わせに対する返信はないそうですが、もし返信が来たら追記します。
良いか悪いか分からない時は、とりあえず辞めておきましょう。分かる人がいれば教えていただけると筆者も助かります。

結論

小説家になろう以外は基本的に小説投稿サイトからデータ収集はできないと思っていた方が良さそうです。小説家になろうは例外的にタイトルやあらすじは取得できますが、小説全文は無理です。小説全文で色んな分析がしたいって人は著作権の切れた作者の文学作品が集まっている青空文庫8を使うしかなさそうです。
情報解析が目的であれば著作権侵害はしませんが、データ収集には各社で利用規約を設けて対策をしていて、上記のWeb小説の全文取得やそれに伴う分析は全て規約違反です。データ収集する前にはしっかりと調べないとダメですね。
Web小説以外にもスクレイピングを禁止しているサイトは多くあるみたいなので注意が必要です9
自社のデータを自由に収集されるって考えると対策は妥当かと思いつつ、もっと自由に使えるデータが増えて欲しいとも思います。これからデータ収集に関する法律や規約が厳しくなるのか、データ提供してくれる所が増えるのかは分かりませんが、罪を犯すことないよう情報共有していきましょう。

※法律の専門家ではないので、間違いあれば教えて欲しいです。

最後に

参考にさせていただいた各記事の製作者様、お問い合わせに丁寧に返信くださった各サービスの運営様、本当にありがとうございました。

  1. https://pig-data.jp/blog_news/blog/scraping-crawling/scrapinglaw2/

  2. https://storialaw.jp/blog/4936

  3. https://qiita.com/tabu_ichi2/items/984e6b5dfbce6727778b

  4. https://qiita.com/ozoraminato/items/fd149196355c64621ca3

  5. https://neo-shocker.com/2017/11/narou-developer-use-ban-not-judged-inappropriate.html

  6. https://kakuyomu.jp/works/1177354054880616271/episodes/1177354054880616779

  7. https://novelup.plus/feature/analytics-2021-summer/

  8. https://www.aozora.gr.jp/

  9. https://qiita.com/n_oshiumi/items/b4efd1f40ec0a1b77376

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Sign upLogin
0
Help us understand the problem. What are the problem?