皆さん、法令や利用規約、読んでますか~~~???
「機械学習パラダイス、NIPPON」という認識を改めるため調べた内容を記事化します。
初めに
本記事には法律に関わることに触れていますが、本記事の筆者は法律の専門家でもなんでもないので、各読者様で調査するか専門家にご確認ください
記事内の間違い指摘や修正は大歓迎です(よければ、一緒に議論していただけませんか?)
2022/03/14 〜 2022/04/30の期間でデータに関する記事を書こう!のキャンペーンが行われております。
その中のテーマ2では「データの設計・構築・分析・運用・管理について役に立つTips」。とのことでしたので、最近調べていた「データを取り扱う上での注意点」についてまとめて書いてみようかと思います。(分類としては管理だと思う)
本文の前に
私はたぶん、おそらく、部分的に、データ分析やデータサイエンスを仕事として行っている者です。
根っこの部分はデータと向き合って統計的な法則などを見つけていくことを楽しみたい人間なのですが、それだけでお金が頂ける状況はなかなかありません。
データ分析やコーディング以外にもチョコチョコ色々なアンテナを張って仕事をする中で、データ分析をビジネス(営利)に活用しようと思うと出てくる問題、それが「権利問題」です。
そこでタイトルの通り「データ収集・発信 と 権利」について注意すべきポイントを考えてみようと思います。
※本記事では一般公開のサービス提供や、利益目的の利用という視点を持たず、個人の分析者としてデータ収集や学習、データ提供・公表をする場合に限って記述しています。
本キャンペーンを主催していらっしゃる株式会社コネクトデータではdelikaと呼ばれるサービスを展開されていて、このサービスの注目機能は以下のように書かれています。
この一覧や、ホームページ上に載っている活用例から
- 会社を超えたデータの共有を容易にする
- データ抽出機能
- 経時的なデータのスナップショット利用
- プラットフォーム内の公開データを使ったAI構築、DX企画の際のインサイトのタネの提供
あたりが特徴的な機能なのだと認識しています。
データ分析者が注意すべき権利周りの話
コネクトデータ社のサービス「delika」が目指している一つのビジョンとして以下のような一文が見られました。
データにとってのgithubとしての働き、が期待される機能として挙げられています。
Githubは「コードや小さいファイル」のバージョン管理、共有発信、協働作業に特化しているサービスですが、Githubの中にも問題のあるリポジトリが存在しています。
例えば
- 有料の電子書籍をpdf化し公開しているリポジトリ
- 他人の作ったコードをフォーク・コピーし、自分の制作物のように公開しているリポジトリ
- コードだけでなく機械学習の学習に使ったデータをそのまま含んでいるリポジトリ
等があります。
どれも「権利」を考えると善意で共有しただけ、という言い訳は通じない問題となります。
delikaについても公開した情報の権利チェックまでは行ってくれません。
善意で公開した情報が原因で訴訟を起こされることが無いよう、自衛しましょう。
「なんちゃって」でもいいから法務担当者になったつもりで注意を払いましょう。
delikaに限らず「電子データを発信する際、またデータを収集する際」に気を付けないと危ないポイントについて小言を書いていきます。
「データ解析目的」なら日本はデータの収集や発信に寛大なんじゃないの?
そんなフレーズを聞いたこともあるでしょう。
これは2019年よりも前ならば「著作権法 47条の7」
2019年以降ならば「改正著作権法 30条の4」
のことを指しているのでしょう。
昔を振り返るほど法律には詳しくないため、現状の法律を確認してみます。
まずは話の切り口としてこちらの資料を抜粋します
論文をガンガンスクレイピング、ダウンロードしてサービス開発を行ってもOK!と言われているようにも見えます。
もちっと詳しく見てみましょう
一般には見慣れない書き方をしていますが、「思想感情を享受する、他人に享受させる」目的でなければ著作物の利用が可能。
ただし、著作権保有者の利益を害さない場合に限る
「享受」については文化庁著作権課 デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定に関する基本的な考え方の問5,6をご覧ください。
続けてこうも書かれています
情報解析の目的や、それを必要とする開発の為であり、人の知覚が介入しないような状況での処理である場合には著作物の利用が可能。
これを踏まえて、データ収集・学習について
今回紹介した条文だけで、データ収集と学習をする場面を考えてみると
- 検索エンジン等をスクレイピングして大量の漫画画像を集め漫画フレーム生成モデルを作る
- youtube上の動画から音声データを抽出し、音質・声質変換アルゴリズムの学習を行う
- P2P型ファイル共有ソフトを使いダウンロードした映画を解析しシーン切り替わり検出モデルを作成する
- 雑誌のスキャンデータをクラウドサービス上にアップロードし機械学習サービスを使い顔認識アプリを作る
のようなことが許されそうです。
しかし、他に気にする法律があるため、上記のすべてに注意点があります。
-
スクレイピングについてはアクセス過多により業務や接続先の機器に影響を与えた場合に、刑法の偽計業務妨害罪や電子計算機損壊等業務妨害罪に該当する可能性があります。
漫画画像については権利者の利益を害しない、他人へ思想を享受させる目的でない、という条件を満たしている限りは利用できますが、販売され利益を得るはずだった形式で容易に漫画を読むことができ、これを他人も可能な状態とする(公衆の場に提供する)場合はアウトです。 -
youtube上音声データはそもそもyoutubeの利用規約によって基本的にダウンロードや録音録画が禁止されており、民事的に罰せられる可能性があります。ただし、同意を必要としない場合については諸説あるようで、規約やrobot.txt等が読める状態にあれば同意したと捉えられるとも、同意していなければ規約には縛られない、とも両者の情報がありました。
また、その動画の発信者が基本的に権利保有者であり、その方がyoutube上で掲げているライセンス項目にも従う必要があります。利用目的が権利者の利益を害する、つまりボイスロイドや声質変換アプリを作り言ってないことを言わせ不利益に繋げる等が考えられる場合にはアウトの可能性があります。
youtube上のコンテンツが違法アップロードされた映画等である場合は、「侵害コンテンツのダウンロード行為」となり当然アウトです。 -
P2Pソフト自体は違法ではないですが、無料公開・二次配布許可でない映画の場合、これも「侵害コンテンツのダウンロード行為」となりますし、P2Pソフトでダウンロードする場合、ダウンロードと同時に自分自身が基地局となり発信・アップロードすることにつながるので、「公衆送信権および送信可能化権」に抵触してダブルアウトです。適法にアップロードされたコンテンツの集合体(公式サイト上の次回予告や動画検索エンジン-別名:所在検索サービス のスクレイピング結果等)であれば、ダウンロードしたデータを人が認識できない状態で処理する(+非享受利用)目的ならば問題がなさそうです。
-
雑誌データスキャンは「私的使用のための複製」として許されそうですが、クラウドサービスが誰でもアクセス可能な場所であった場合「公衆送信権および送信可能化権」からアウトになるでしょう。
顔認識とすると個人が特定可能な顔や名前が含まれている可能性がありこれは肖像権や個人情報保護の観点から訴えられかねません。
クラウドサービスが海外のサーバーにある場合にも、日本にいる本人がアップロードし実行したと捉えられるのか、海外の法律に則って実行された、と考えるのかは微妙なラインかもしれません。
なんでもかんでもデータを集めて利活用していいわけではないということが分かっていただけたかと思います。
データの発信・提供について
収集したデータセットの公開・共有についてはどうでしょうか?
既に公開されているデータセットをコピーし、自分が別の場所に再アップロードした場合はどうでしょうか?
一部分的な利用・共有・引用については、著作権法の第30条や第32条に記載されています。
再度30条の4を振り返ってみると、
情報解析の用に供する場合とあります。
47条の5「電子計算機による情報処理及びその結果の提供に付随する軽微利用等」では
長いですが、データ提供の部分に限って注目するならば、「計算機を用いて検索等を行い、その結果を第三者へ返す事」が「著作者の不利益が軽微である範囲」と認められる場合には許される。
と書かれているかと思います。
画像のリンクやその埋め込みをサービス上に載せ、著作物にあたるものを表示させることも許されそうです。
政令で定める基準を満たすもの、についてはこちらの資料がわかりやすく軽微利用の範囲であれば頒布や複製が許可されるようです。
データ分析コンペティション等で公開されているデータの二次利用については、おそらく会員登録と何らかの約款・利用規約への同意が求められるため再配布した場合には、データ提供主により民事的に訴えられる可能性があります。
たとえば2022年3月時点でのH&M personalized fashion recommendationsでは、コンペ参加時にルール同意が求められます。
ルールを読み込んでみると、コンペティション外でのコードやデータの共有禁止、であったり
第三者への送信、複製、公開、再配布、その他の方法で提供または利用可能の禁止
について同意することとなります。
ここまで読んでみても、「個人がネット上で頒布しているデータ」については、どう扱っていいのかわからない場面があるでしょう。
例えばUCI Machine Learning Repositoryのような無料データ提供サイトに個人が収集しアップロードしたものが載っていたり、github上のコードやデータ、youtube上のコンテンツがこれに該当します。
先ほどにも書きましたが、コンテンツ提供者が細かい条件を記載しなくとも著作者の意思を伝えるための規約として、「クリエイティブコモンズ」と呼ばれる取り組みがあります。
UCIを例にして考えると
クリエイティブ・コモンズ 表示 4.0 国際ライセンス(CC BY 4.0)に従ったデータの利用や共有が可能、という解釈が可能です。
このクリエイティブコモンズライセンスは各国の著作権に準拠して決めらるコンテンツの取り扱い基準となっており、著作者はこのライセンスのレベルを記載して利用者に不正利用を防止させることができます。
権利をクリエイティブコモンズによって主張しているにも関わらず、これに準拠していない使われ方がされた場合には権利所有者は利用者を訴える根拠ができるわけです。さらに、権利者が所属している団体がある場合には、当該団体の定める規約に反した場合にも罰せられる可能性があります。
また、データを発信することで著作物の権利者だけでなく発信する場となったサービス側が不利益を受ける場合もあります。
違法アップロードにおけるサーバ提供会社の責任
単純に問題のあるデータやコンテンツをアップロードされたらサーバ提供側がアウトになる、というものではないのですがやはりサーバやストレージの提供会社にとってのリスクになりえる行為です。
これについては基本的にサービス側が禁止事項として規約に書いているはずなので、アカウント停止や訴訟を避けたければ必ず読んでおきましょう。
以下はdelikaの規約を引用したものです。
まとめ
長くメモ書きを垂れ流してきましたが、簡単にまとめます。
- 著作物でない公開データは他の法規制に反しない限り利用することが出来るよ
- 著作者含めすべての権利保有者から直接利用許可をもらうのが間違いないよ
- 著作者含めすべての権利保有者の利益を害することは軽微な場合を除き許されないよ
- 著作物でも非享受かつデータ解析目的である場合、知覚できない状態やデータ全体からの割合として一部であれば利用することが可能だよ
- データ提供についても過度でない、専門家の指導を受ける、等の措置を行う場合、軽微であれば可能だよ
- サービス提供側の規約や約款に従う必要があるよ
- クリエイティブコモンズ等の提示がある場合にはチェックして従うべきだよ
- 何も提示がない場合は著作者に問い合わせよう
以上をチェックした上でどうしても曖昧な状況が晴れないんだけど権利の絡みそうなデータを利用したいという場合には。。。。
- 法的に根拠を集めた上で裁判覚悟で利用するしかないよ
という解釈をしました。
参考
著作権法 | e-Gov法令検索
文化庁 最近の法改正
文化庁 著作物が自由に使える場合
STORIA法律事務所 2019/01/07
STORIA法律事務所 2018/09/02
AI 生成物・機械学習と著作権法
Star Law Office 2018年11月20日
itmedia 2019年03月29日
早稲田大学知的財産法制研究所 2018年5月29日
株式会社情報通信総合研究所 2021年3月29日
音声合成ソフトの開発における「CC BY-SA」と「著作権法第三十条の四」につい
Webスクレイピングの法律周りの話をしよう! Qiita
youtube 利用規約
IT弁護士に聞く「企業としてのスクレイピングは違法なのか?」
「AI・データの利用に関する契約ガイドライン」