Edited at

Wikipediaを元にした単語辞書に頒布義務はあるのか? キュレーションサービスを巡る法的論争。

More than 3 years have passed since last update.


結論

頒布義務があるようです。形態素解析用の単語辞書をご提供いただき、ありがとうございました。


考察

キュレーションサービス(ニュースアプリ。Webコンテンツを集めてユーザーにオススメするサービス)は、Webコンテンツを分類する為に内部で辞書を持っています。その辞書をもとにコンテンツの文章を単語に分け、その単語群からそのコンテンツの特徴を把握します。この辞書はキュレーションサービスにとって、ビジネスの要であると言えます。なぜならば、正確に単語を分ける事ができるのならば、後は定番の機械学習アルゴリズム(ex.Complement Naive Bayes)にかけるだけである程度の精度の分類は行えるからです。先の辞書は秘伝のタレに比喩される事も多いです。

さて、その辞書ですが、世の中で最も多く使われているのはWikipediaのデータセットを元にしたものです。Wikipediaの記事のタイトルはダウンロードページから一括ダウンロードできるので、その内容を元に辞書を生成する事はもはや定番手法と言えます。

しかし、先のWikipediaのデータセットは扱いに難しいライセンスが適用されます。それは、CC BY-SAと言われるものです。CC BY-SAは、そのライセンスが適用された一次創作物とそのN次創作物に対して「クレジットを提示する事(BY)」とともに「同じライセンスで頒布する事(SA)」を制約にかし、逆にそれ以外の制約をかけない事を明記するものです。GPL汚染を思い浮かべた方は、かなり良いところを行っています。

WikipediaにあるCC BY-SAの記事を私なりに解釈した所、Wikipediaを元にした単語辞書を使うには次のルールを守らなくてはいけません。

「Wikipediaを元にした単語辞書の内容を一部であっても公に閲覧できる状態にしたならば、その単語辞書はCC BY-SAのライセンスで頒布しなくてはならない」

なお、その私なりの解釈とは次のものです。

「Wikipediaの記事タイトルのセットは、データベースの著作物にあたる。その為、著作権が発生する。著作権がある以上はWikipediaが提示するCC BY-SAのライセンスを守らなくてはならない。CC BY-SAは編集物に適用されないと書いてあるが、編集物の定義を見ると著作物全体が"改変なく"含まれる事が条件になっている。その為、単語辞書は編集物と認められない。ただし、ライセンスの中に"著作物を公にした場合"の記述がある事から、公にしない場合は頒布義務がないと考えられる。しかし、逆に一部でも公にした場合は頒布義務が発生する」

この案件は、世のキュレーションサービスにとって大きな影響を与える可能性があります。キュレーションサービスではWebコンテンツのタグやオススメされたWebコンテンツの構成といった形で、先の辞書の内容が公になっている事があります。もしもその辞書にWikipediaのデータが使われているのならば、キュレーションサービスの運営の方は先の辞書を頒布した方が良いでしょう。ただでさえマスメディアと喧嘩した事がある業界なのですから、ライセンス違反の指摘は無視できません。

私は上記の解釈を使って問合せを行う事により、実際に某キュレーションサービスの運営の方から欲しかった辞書を頂く事ができました。頒布ページも作って頂ける予定です。私は知り合いもいるのでもう行う気はありませんが、もしも同様のアプローチで他のキュレーションサービスにアタックをかけたら、素敵なオープンデータ祭りになるかもしれません。「データのレバレッジによる、より良い未来の実現」の理念を実現できるやもしれません。