デジタル推進人材育成プログラム「マナビDX Quest」での学習が進みました。今回は「AI関連法律講座」で機械学習にまつわるベンダーが順守するべき法律について学びました。内容は西村あさひ法律事務所の福岡真之介弁護士、加藤知的財産事務所の加藤卓士弁護士が監修したものとなっており、ベンダー向けのものとなっております。
AI関連法律講座(福岡真之介弁護士・加藤卓士弁護士)
AIの開発フェーズと各過程で守るべき関連法律を知る:
①データ収集・作成段階
②モデル作成段階
③モデル利用段階
一般にAI開発に関係する法律は 特許法・著作権法・不正競争防止法・個人情報保護法 の4つ。
データ・データセットについて
データ、およびデータセットの内容は 著作権法と個人情報保護法を順守したものでなければならない 。この場合「著作権法を順守」とは 著作物ではない生データを用いる か、契約で著作者から著作権を譲渡してもらう といった対応が考えられる。データに著作権法上の問題がない場合、 データセットそのものに著作権が認められる可能性 もある。これには「情報の選択・体系的な構成」といったデータセット作成者の 創作性 が必要である。
データ・データセットは 不正競争防止法に基づき営業秘密とすることが可能 である。これはデータ・データセットの内容が上記の著作権法・個人情報保護法に反しない場合、そして秘密管理性・有用性・非公知性の3要件を満たす場合に限られる。
法律と不法行為について
データ・データセットの内容が明らかに著作権法・個人情報保護法、その他国の定める法律に反すると認められる場合、不法行為について定めた 民法709条 に基づき加害者は被害者が被った損害を賠償する責任を法的に負う可能性がある。不法行為が成立するには、下記5つの要件を満たすことが必要である:
①加害行為が違法である
②被害者に損害が発生している
③加害行為が故意・または過失に基づくものである
④損害と加害行為に因果関係がある
⑤加害者に責任能力がある
不法行為であると認定されない場合として、次のような例がある
①違法行為により損害は生じたものの加害者に過失がない
②損害と加害行為に因果関係がない
③加害者が精神障害等を罹患しており責任能力がない
不法行為が事実として成立しただけでは損害賠償を請求することはできない。損害賠償を請求するには、被害者およびその弁護人が不法行為であることを立証しなくてはならないケースが多い。
特に立証が困難なのは 「加害者に故意・過失がある」、 「自身の損害と加害者の加害行為に因果関係がある」 の2点とされている。
不法利得について
データ・データセットの使い方次第では不法行為の他、 民法第703条 の定める不当利得に抵触する可能性がある。不当利得とは法律上正当な理由がないにも関わらず、他人の財産もしくは労務によって利益を受けそれが理由で他人に損失を与えることである。この場合加害者は受け取った不当利得を被害者に返還する責任を法的に負う。例えば 商品を購入した際、店側がお釣りを過剰に受け取る と故意でなくとも不当利得に該当する。不法行為が成立するには、下記4つの要件を満たすことが必要である:
①他人の財産または労務により利益を得た
②他人に損害を与えた
③利益と損害の間に因果関係がある
④法律上の原因がない(契約で譲渡する等、正当な手順を行っていない)
不当利得を受け取ったのが 「善意」か「悪意」か によって、返還する金額は変化する可能性がある。善意とはある事実について知らないことを意味し、つまり不当利得であることを知らずに受け取ったケースを指す。
「善意」の場合、「その利益の現存する限度(現存利益)」、つまり使ってしまった後の金額を変換するべしとするケースが多い。借金の返済や生活費の支払いに不当利得を使った場合、「自身が持っている財産の減少を免れた」という点で利益が残り、手元に現金がなくても現存利益は不当利益を同額とされる場合がある。
「悪意」の場合、不当利益に対する賠償は民法第704条の定める不当利得の返還義務が適用されるケースが多い。これは「受けた利益に利息を付して返還しなければならない。この場合において、なお損害があるときはその賠償責任を負う」というもので、不当利益と同額以上の賠償責任を負う可能性がある。
著作物の定義
著作物とは、このように定義されている。
①思想または感情を「創作的に」表現したもの
②文芸、学術、美術、または音楽の範囲に属するもの
著作物として認められない元データとしては次のようなものが挙げられる。
①アイデア
②事実データ
③著作権法10条の3で定められるプログラム言語、プロトコル、アルゴリズムといった「計算可能」問題の手続きそのもの
例えば内視鏡画像のデータやセンサーが記録した温度、湿度、振動データは著作物ではなく、著作権法では保護されない。著作物でなくても、これらが医療情報であり個人情報と結び付けられている場合は 個人情報保護法によって保護しなければならないケース もある。
著作物であるデータは イラストや音楽、また学者や医師が書いた文章、写真や小説 である。プログラムのコード自体はパブリックドメインやオープンソース、営業秘密とすることができないGPLライセンスなど様々であり、要検証。
著作権法30の4の解釈
著作物を機械学習する場合、最も問題となるのが著作権法30の4の解釈である。
①「著作物に表現された思想・感情の享受を目的としない」場合、著作権者の許諾は不要となる
②著作権者の利益を不当に害する場合、享受目的での利用はできない。具体的には、情報解析のデータには「著作権者が学習目的で用意し利用を許可したもの」を除き、著作物を無許可で利用するのは原則不可能である
福岡真之介弁護士・加藤卓士弁護士の見解では「○○風キャラを生成できるようになるデータセット」という面目で 特定の作家や作曲家のデータを販売するケースは享受目的での利用 となり、著作権法30の4では保護されない。同じ理由で「○○が研究目的で作成したデータセット」であっても 他者の著作物である場合・研究目的に限定している場合享受目的の利用はできない 。著作権法30の4は他者のイラストや写真・文章を無許可でデータセット化することを無制限に保護する法ではないという解釈である。
個人情報の定義
内視鏡画像のデータやセンサーが記録した温度、湿度、振動データは著作物ではない場合が多いが、これらが医療情報であり個人情報と結び付けられている場合は個人情報保護法によって保護しなければならないケースもある。
個人情報の利用には、どのような用途でも 利用目的の開示と本人同意 の最低限2つを満たさなければならない。また 第三者への情報提供など情報が移動する場合 も本人同意が必要である。
個人から得られた情報でも、匿名加工情報・集団の統計に関わる情報は個人情報ではないので、本人の同意なしに利用できる。具体的に匿名加工情報は 個人情報保護法2の9 で定義されている:
①個人情報を加工し、特定個人を識別不能にしたもの
②個人情報を復元することができないもの
データからIDや名前を消すだけでは匿名加工情報として十分ではない 。匿名加工情報とするには、顧客情報テーブル等から 会員ID・氏名・生年年月・住所・電話番号のすべてを抹消 しなければならない。 これらを仮ID・10年区切りの年代・居住地域に替えたデータは匿名加工情報として利用可能 である。
開発ベンダー等に個人情報を提供するためには匿名加工情報に変換するか、データをAI開発に提供するための本人同意・本人の異議申し立て(オプトイン・オプトアウト)の体制を構築する必要がある。
モデル・モデルの作成について
モデルの作成に使う学習用のコード、およびそれによって得られた 学習済みモデルは特許権の申請や著作権の保持、また営業秘密とすることが可能となる ケースが多い。ただし一定の要件を満たす必要がある。また、データやデータセットの内容・ユーザーとの取引の内容次第では 「学習済みモデルの権利は誰にあるのか?」 が問題となる。
多くの場合AIのユーザーがモデルに関する権利を自社に帰属しようと試み、一方ベンダーはプログラムとシステムに関する権利を開発主体である自社に帰属しようと試みる。
学習済みモデルの構成要素は、学習・パラメータの保存に用いる 推論プログラム と 学習済みパラメータ の2つに分かれる。このうち 推論プログラムはベンダーが著作権者 となる。
一方、学習済みパラメータに関しては非明示的なアルゴリズムで自動生成される=著作権法10条の3で定められるアイデアや計算手続きであることから、 著作物として認められない可能性が高い。
実際 「AIによるコンテンツは”人間によるものではない”ので、著作物として認めない」 という見解をアメリカの合衆国著作権局と日本の弁理士協会が公表している。
これは学習済みモデルではなくChatGPTやStableDiffusionのような生成AIが”作成”する画像やテキストに対する見解だが、福岡真之介弁護士・加藤卓士弁護士は ”人間によるものではない”・”創作性がない”という観点から同じ性質が学習済みモデルにも当てはまると考えている。権利の帰属元があやふやになるのを防ぐためには、ユーザーとベンダーと間で学習済みモデルの権利の帰属元を契約で定める必要がある。
推論プログラムに関する著作権で更に注意するべきなのが、創作的な表現に関与する者が企画者・投資者・マネージャー・プログラマー・データエンジニア・AIエンジニア等々と多岐にわたるため 誰が原著者かベンダーのステークホルダー間でトラブルになるケースがある ことである。この場合誰が著作権者かの判断材料は以下のようになる。
①創作の前段階での関与は創作ではない
前段階の企画者である企画担当者、著作物ではない生データの提供者は著作者ではない
②表現の内非創作部分への関与は創作ではない
プログラマーの中でも、指示に基づいてプログラミングした者は著作者ではない
③表現の外の周辺部分の関与は創作ではない
プロジェクトマネージャーや経営者、資金提供者などは著作者ではない
法的に著作者として認められる可能性が高いのは プログラマー・データエンジニア・AIエンジニアといった実際に推論プログラムの作成と実施に関わった技術者 という見解。ユーザーが著作物であるデータを提供した場合を除いては、ベンダーの内でも推論プログラムの作成と実施に関わった技術に推論プログラムの著作権が付与される。このうち 誰が著作権者であるかを契約書で明確に定める 必要がある。
学習済みモデルの作成にしては、このような事項を明確化して契約をする必要がある。
・データの取り扱いの明確化
・AIソフトウェアの製品に関する事項
・知的財産権の権利帰属や利用条件
・責任の主体の明確化
特許取得によるアイデアの保護
アイデアは著作物ではないので、第三者に模倣されやすい”AIを用いたアイデア”を製品としてユーザーに売り出したい場合は関連特許を取得することが推奨される。しかし特許出願はリスクも多い。
①特許権行使は困難である
②特許出願後1年6か月が経過するとその内容が公開されてしまう
③非オープンソース化することでレピュテーションリスクが発生する
また、特許成立の要件を満たすかも加味しなくてはならない
①進歩性 - 既存技術よりも優れた点がある
②サポート要件 - 特許取得の要件が説明に記載した範囲を超えない
③実施可能要件 - 発明の具体例は実際に実行することができる
特許取得が拒絶される可能性が高いAI技術の例として、「ダムの水量・発電量を降水量から予測するAI」 がある。これは既存技術で実現可能であることから進歩性を満たさず却下される。特許出願の拒絶理由の内、99%は進歩性を満たさないため却下されてしまう。特に特許公報にすでに記載されている先行技術、社会ですでに活用されている周知技術は進歩性を満たさない。
一方 「ダムの水量・発電量を降水量+上流域の気温から予測するAI」は進歩性が満たされる可能性 がある。これは上流域の気温から発電所の生産するエネルギーを予測する方法は既存技術では見受けられないためである。
可能性は低いが、実施可能要件を満たさないという理由で拒絶される場合もある。これを防ぐには明細書による説明を充実させること、統計的な裏づけを行うこと、機械学習モデルの性能評価を記載すること等々の対応をする必要がある。
オープンソース利用時の注意点
AI開発にはオープンソース(OSS)のライブラリであるTensorFlow・PyTorch等を用いるケースが殆ど。しかしOSSにはライセンス条件がありそれを守らなくてはならい。OSSのライセンスは大きく3つに分けられる:
①コピーレフト
②準コピーレフト
③非コピーレフト
コピーレフトとは、著作者が 「著作権そのものは保持したまま第三者に自由な改編や二次配布を許可することを許諾する」という著作物に対する姿勢 を表す。これは「著作権を保持しているので勝手な改編や二次配布は許可しない」という古典的な著作権の利用法に対する対義語となっている。
コピーレフトはパブリックドメインではない ので、自由なソフトウェアの流通を支えつつも二次著作者に以下の対応を求める場合もある:
①二次著作者がソースコードを改編した場合、改編部分のソースコードの開示を義務付ける(改編)
②二次著作者がソースコードを他のソースコードを組み合わせた際、他のソースコードの開示を義務付ける(結合)
①コピーレフト(改編:要開示、結合:要開示)
②準コピーレフト(改編:要開示、結合:開示不要)
③非コピーレフト(改編:開示不要、結合:開示不要)
ソースコードを営業秘密等にしたい場合は、改編部分のソースコード開示が不要とされる非コピーレフト型ライセンスのソースコード利用するのが最適である。
また「オープンソースだから、コピーレフトだから」という理由で権利関係の確認を怠ってはならない。既存のコピーレフト・準コピーレフトのソフトウェアを改編したソフトウェアを作成し第三者に配布する場合は、必ず改編・結合したソースコードを第三者が閲覧できるよう開示 しなければならない。
代表的なライセンス条件
①コピーレフト - GPL
②準コピーレフト - MPL、GNU、EPL
③非コピーレフト - BSD License、Apache License、MIT License、ISCLicense
また、「ソースコードがOSSだから」という理由で第三者が保有する特許を自由に利用できるわけではない 。
モデルの利用段階について
モデルを利用する際の配布法として、学習済みモデルをそのまま複製する場合・蒸留モデルや派生モデルとする場合 が考えられる。また場合によってはAIが出力したデータを著作物とすることができる場合がある。データセットやモデルに法的な問題がなくてもAIが出力したデータは”人間によるものではない”・”創作性がない”という観点から著作物と認定されない可能性が非常に高いが、その場合は契約等で帰属先を明確にする必要がある。
(ベンダーがするべきこと→モデル・生成データの帰属先を明確にする)
派生モデルについて
派生モデルとは、既存の学習済みモデルに更に新しいデータを学習させパラメーターを一部変更したもの を指す。学習済みモデルに転移学習やファインチューニングを施すと派生モデルを作成できる。
具体的には、VGG16を1000個のカテゴリーに分類するモデルから不良品の回路基板を検出するモデルに変更するのが転移学習、Stable DiffusionにLoRA (Low-rank Adaptation)を施してイラスト生成に特化したモデルにするのがファインチューニングに相当する。
この場合推論プログラムは同一だが(場合によっては入力・出力層の構造を必要があるので推論プログラム自体も変わる)、学習済みパラメーターが変化 することになる。
学習済みパラメーターが著作物でないというのはこのような派生モデルにも当てはまるので、ベンダーは派生モデルに関しても帰属・利用条件を定めるのが望ましい。
蒸留モデルについて
蒸留モデルとは、既存の学習済みモデルが出力できる 「生成したデータ自体」を他のAIに学習させることでより低リソース・低コストで近しい性能を実現したモデル を指す。
例えばGoogLeNetのような高い分類性能の画像処理AIの出力をより単純な構造のCNNに学習させることができる。つまり教師データに生データでなく学習済みモデルの生成データを用いる 点が通常の機械学習モデルと異なる。
蒸留モデルを作る事自体は著作権法に抵触しない可能性が高いが、学習済みモデルが1つあれば蒸留モデルの作成が容易にできてしまうので蒸留モデルをユーザーが転売する等、ベンダーとの利益相反行為 が行われる可能性がある。そのためベンダーは蒸留モデルの作成を禁じる利用条件を定める必要がある。
学習済みモデルの作成にしては、このような事項を明確化して契約をする必要がある。
・運用・保守の要件
・追加学習の条件(要否、および条件下での追加学習を許可するか)
・派生モデル・蒸留モデルの要否、利用条件と権利帰属
・AIによる生成データの取り扱い(生成物の権利と帰属先)
AI生成物の権利と帰属先
日本国においては 知的財産権の創作者となる主体は法的に”人間”である存在のみに限定されている 。著作権や特許権・個人の所有するデータはすべて人間により創作・生成されたものであることが前提となる。そこで問題となるのが、人間の指示によるAIの創作・人間が創作意図をもってAIに指示し創作が行われた場合 の創作物の帰属元である。
人間の指示によるAIの創作
AIが完全に自動で生成した「AI創作物」には現行の法律では著作権が発生しない 。これは機械とアルゴリズムは創作者となる主体ではないという解釈に基づいており、日本弁理士協会の「AI創作物は著作物でない」という見解とも一致する。これは 創作意図がない場合の人間の指示 によって「AI創作物」が生成された場合にも当てはまる。
創作意図がある人間の指示によるAIの創作
創作意図がある人間の指示によるAIの創作は人間による創作であり、「AI創作物」の権利は創作意図をもった人間に帰属する可能性が高い 。しかし データセットやモデルが著作物である場合 、モデルから出力された「AI創作物」は著作権に抵触する可能性がある。具体的に「AI創作物」が著作権侵害に相当するには、データセットやモデルが他者の著作物を利用しているという 「依拠性」、表現と創作部分に共通性がみられるという 「類似性」 の双方が成立する必要がある。
福岡真之介・加藤卓士弁護士の見解では、著作物とあからさまに表現と創作部分に共通性がみられる「パクリ」を目的とする場合 、プロンプトに対して著作物をそのまま出力する場合 を除いてはデータセットに著作物を用いる場合でも「AI創作物」が著作権侵害に相当する可能性は低い。しかし昨今の研究では生成AIが「特定の作家の表現・作風を双方マネる」など表現と創作部分に共通性を目指すケース、「学習用画像にきわめて類似した画像を出力する」など著作物をそのまま出力するケースも見受けられる。
福岡真之介・加藤卓士弁護士の見解に従う場合、アーティストやライターといった著作者やモデルの作成者が「悪質なAIユーザー」等から 「勝手に学習されない権利」「勝手にモデルを悪用されない権利」 を守るためには「学習禁止・生成禁止」といった「類似性」を生み出す活用を禁じるのではなくデータやモデルを意図する以外の方法で利用すること、つまり 「依拠性」そのものを生み出すことを禁じる「データセット化禁止」「享受目的でのモデルの利用禁止」といった著作物の権利を主張することが効果的 と思われる。