–はじめに–
機械学習を扱っている人が必ず一度は気にすることになるであろうデータセットの著作権について、要は使えるの?使えないの?というところから、ソースまで、まとめてみました。とりあえず今自分がやろうとしていることが著作権法的に適法なのか知りたい、という方や、本当に大丈夫なのか心配だから根拠が欲しい、という方が対象となります。自分自身、こういったことでかなり悩むことが多かったので、この記事を少しでも多くの同じ悩みを持つ人に読んでもらいたいと思います。
※この記事で紹介しているサイトの内容と被る部分が多いのですが、結論と根拠だけ早く知りたいという方が多いと思うので、簡単にまとめ直しました。
※記事の内容は、あくまで個人の見解です。これによって発生する如何なる問題に対しても、責任は負いかねます。
目次
1.結論
2.具体的な例
3.法律の確認
1.結論
★第三者が著作権を持つデータを元に学習させ、学習済みモデルを公開しても問題ない
そして….
「営利・非営利」を問わず↑は適用されるらしい
ただし、注意点として
機械学習のためのデータとして作られたデータセットなどの
データベースの著作物については、適用されない
機械学習を使う上で、これだけ知っていれば基本的には問題ないと思いますが、一応、生データ、DBに第三者の著作権がある場合の、それぞれの状況についても併せてまとめておきます。
あくまで、そう解釈できると言っているだけで、保証できるものではありませんが、参考にしていただければ幸いです。
①第三者の生データを収集し、データベース作成、学習用データセット作成、機械学習を一連の流れとして行い、当該学習済みモデルを提供、販売する行為。
→OK
②第三者の生データからデータベースを作成し、当該データベースにラベル処理等をして学習用データセットを作成し、当該データセットを提供、販売する行為。
→OK(2018年5月25日 改正 30条の4)
③第三者の学習用データセットを利用して機械学習を行って学習済みモデルを生成し、当該学習済みモデルを提供、販売する行為。
→NG
④第三者の学習済みモデルに入力・出力を行い、当該入力・出力を取り出して機械学習を行って別の学習済みモデルを生成し、当該学習済みモデルを提供、販売する行為。
→OK
当然ではありますが、生データ、DBに第三者の著作権がない場合は、以上全ての場合において、問題ありません。
※機械学習用データセットを使う場合は、そのデータセットの作成者の著作権に準ずるので、データセットの配布形態により、使用の可否が決まる。すなわち、無料配布されており、自由に使ってくださいというようなデータセットについては、自由に使用可能と考えられる。
また、改正された著作権法30条の4により、データセットの販売行為が可能となったので、他人が作成したデータセットを、無料配布のものはそのまま、販売されているものは購入するなどして学習することは可能になったと考えられます。
30条の4の改正について、詳しくは、こちらの記事に書いてあります。(自分も参考にしました)
・[進化する機械学習パラダイス ~改正著作権法が日本のAI開発をさらに加速する~]
(https://storialaw.jp/blog/4936 "進化する機械学習パラダイス ~改正著作権法が日本のAI開発をさらに加速する~")
2.具体的な例
学習にアニメのデータセットを使えるのか、それによって作ったものを公開してよいのか、という点について調べたところ、以下二つの記事を見つけました。
・第三者のデータから学習用データセットや学習済みモデルを適法に生成・利用できるのはどのような場合か具体的に考えてみる
要約すると、第三者が著作権を持つデータを元に学習させ、学習済みモデルを公開しても問題ない、ということになります。
※例:エロゲの画像をどれだけ学習用データに使っても、営利・非営利を問わず、そこから自動生成されるものを公開することに問題はない(ただし、契約上の制限等が無ければ)
従って、アニメ画像生成は著作権法的にはホワイトと考えられます。
3.法律の確認
著作権法
第十一条 二次的著作物に対するこの法律による保護は、その原著作物の権利に影響を及ぼさない。
→データセットの著作物に対する法律の保護は、その元となる各々のデータの権利に影響を及ぼさない。
→つまり、データセットの著作権とデータの著作権は別物と解釈できます。
第十二条 編集物(データベースに該当するものを除く。以下同じ。)でその素材の選択又は配列によって創作性を有する者は、著作物として保護する。
2 前項の規定は、同行の編集物の部分を構成する著作物の著作者の権利に影響を及ぼさない。
→ここまで、データベースに該当するもの(配布されているデータセットなども含む)は除かれています。
第十二条の二 データベースでその情報の選択又は体系的な構成によって創作性を有する者は、著作物として保護する。
2 前項の規定は、同行のデータベースの部分を構成する著作物の著作者の権利に影響を及ぼさない。
→データセット(条文ではデータベースに該当するもの)を二次的著作物と見なさなくとも、同様にデータとデータセットは別物と解釈できます。
結局、「第十二条」と「第十二条の二」はほとんど同じことを言っているように見えるので、個人的には、まとめてしまっても良い気がします。
第三十条の四 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。
一 著作物の録音、録画その他の利用に係る技術の開発又は実用化のための試験の用に供する場合
二 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合
三 前二号に掲げる場合のほか、著作物の表現についての人の知覚による認識を伴うことなく当該著作物を電子計算機による情報処理の過程における利用その他の利用(プログラムの著作物にあつては、当該著作物の電子計算機における実行を除く。)に供する場合
→一つ一つのデータの著作権については、但し書きの部分に触れない範囲では、問題がなくなったと見ていいでしょう。※データセットの著作権は健在
余談ですが、
アニメキャラの自動生成が流行ると、絵師さんから仕事を奪うことになりかねない
→マクロな視点では、「著作権者の利益を不当に害することとなる場合」に該当しそうですが、個々には直接関係ないので、大丈夫そうですね。
ただ、絵師さんにはお金を回したいので、難しいところです。
第四十七条の七 著作物は、電子計算機による情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の統計的な解析を行うことをいう。以下この条において同じ。)を行うことを目的とする場合には、必要と認められる限度において、記録媒体への記録又は翻案(これにより創作した二次的著作物の記録を含む。)を行うことができる。ただし、情報解析を行う者の用に供するために作成されたデータベースの著作物については、この限りでない。
(電子計算機における著作物の利用に伴う複製)
→結論で述べた通り、機械に学習させるためのデータとして使う分には、著作権を意識しなくてよいと解釈可能。ただし、そもそも機械学習のために作られたデータセットについては、この限りではないと記されている。