はじめに
ChatGPTについては、まったく疑いようもなく素晴らしく高い技術ものだと思うし、その技術がうまく活用される場面が生み出せてよかったなと思っています。またAI氷河期に入りそうだったところを盛り上げてくれてうれしい。否定は全然してないです。
ですが、今このブームに乗っかって、よく知らない人たちが悪意なく機密情報を流出させてるんじゃないか、というポエムです。
ChatGPTに投げた質問が学習される仕組み
ChatGPTに限らずAIは、何かを学習して、それをもとに、学習したこと以外のこともできるという仕組み。ChatGPTでは、膨大ないろいろな文章やプログラミングを集めて学習して、それ以外の質問にも答えます。
ChatGPTは今でもすごいですが、開発元のOpenAIは「もっと賢くしたい。つまりもっと学習させたい。」と思っているはずです。
では追加で学習するための文章やプログラミングの情報をどこから集めよう?という今、ChatGPTの利用者がバンバン入力してくれる情報が集まります。「これを捨てるのはもったいない、学習させよう」となるのは自然です。
そういうわけで、ChatGPTに投げた質問が学習されるかもしれません。
ChatGPTのあの画面で打ち込まなくても学ぶ
基本的にはChatGPTの黒っぽい画面でChatGPTに質問するわけですが、ChatGPTはAPIを用意していて、あの画面だけでなくいろいろな機能がたくさんの人によって作られています。例えば、ググるとともにChatGPTにも投げるとか、VSCodeのコーディング中になんかするとか。それって、APIを通じてChatGPTに質問を投げて、回答が検索画面やVSCodeに出てきてるので、結局黒っぽい画面で入力しているのと同じです。
これの怖さは、自動的に送られているので、意識せず入力していることです。仕事で客先のコーディングをしているVSCodeにこの機能を入れちゃうと、それ全部流出してますよという意味。
以前、コーディング能力検査みたいなシステムで、githubから客先のソースが流出した事件があったのを思い出しますね。外部のシステムに入力するという意味で。(それをいったら、githubをどんだけ信頼してるんだという話もありますが)
利用規約はどうなっているか
https://openai.com/policies/terms-of-use
学習されると書いてきましたが、2023年3月14日付(2023/4/9時点での最新)の3-(c)で、「API経由では学習しない」と書いてあります。(ほかの文章生成AIは調べてません。)
これは3つの示唆があると思っています。
- 以前は、学ぶって書いてあったので、2月くらいまでに入力されたものは学習する可能性がある。
- API経由でないブラウザの黒っぽい画面で入力したものは、学習する可能性がある。
- 今後、この規約が変更される可能性はある。
そもそも学習するかしないかは、開発側の判断次第。こうやって書いているうちは学習されないけど、ここを書き換える権利は開発側が持っています。なので、OpenAIを使った機密情報を扱うシステムを作るとしたら、利用規約は毎日チェックしないといけないと思います。そして利用規約が「学習する」と変わったら、そのシステムは急に使ってはいけないシステムになる。
ちょっとわき道にそれてついで話。3-(a)
出力した情報は、出力を受けた人にすべての権利を譲渡しますって書いてありますね。これはOpenAIの結果を自由に使っていいですよ、というやさしい気持ちでもありますが、機密情報が出力されたとしても受け取った人を止められませんよとも読めます。セクション3は濃い。
今は流出が問題になっていない
AIの学習はとても時間がかかるので、利用者が入力された都度学習するというのは非効率です。一定量(たぶんものすごいたくさん)たまったら、一気に学習させてチューニングをして次のバージョンの賢いChatGPTができあがります。
なので、ChatGPTが話題になった2022年末から今まで入力されてきた情報は、まだ学習中とか調整中かもしれない。だからChatGPTはまだその情報を使えず、回答はしない。
ですがそのうち、学習した情報を使って回答するようになるはずです。もうリリースされてるかもしれないけど。
そのとき、機密情報とかコーディングとかが表に出てくるんじゃないかと思っています。
抑止する力
だけど一方で、ChatGPTの方ももう1歩賢くなって、「これは機密情報である」という判断をした場合に、「機密情報だから言いません」という、"知ってるけど言わない機能"が実装されるかもしれない。これは、留守の家への入り方とかを聞いたときにダメだって答える機能があるから、その発展版のように。
逆に言うと、その機能が実装されない場合とか、機能は発動したけど断片的に漏れ出てしまうとかで、やっぱり流出するのではないか。
そもそも、知ってるけど言わないということは、知ってはいるんだね?ということで、少なくとも開発元であるOpenAIは知ることができます。抑止する力を働かさない=言わない機能をオフにして使えば、得られます。というか、学習元の生の情報も持っています。
AI vs AI
ChatGPTだけでなく、ほかの会社の文章生成AIはたくさんあり、それら同士で会話させることもすでにできるでしょう。それを使って、相手が持つ機密情報を引き出す使命を持たせるとか(自分が持つ情報は言えないので)、そういうことも考えられる。GPT3.5ではまだ無理そうだけど。
AI vs AIは、本当に未知の領域なので、どうなるかわからないです。AI同士で築き上げた人間が判らない言語を使うのでは?とかSF的な話も聞いたことがあります。未知だけに、可能性はいくらでもあります。
けどまぁ書いておいてナンですが、未知すぎてここにおびえても仕方ないと、個人的には思います。
まとめ
とにかく情報漏洩の対策は、学習する/しないに関わらず、機密情報をChatGPT(それ以外にも)へインプットしない、質問に使わない、自動的に流し込むツールをつかわないということ。けどそれは、仕組みで抑えることは難しいので、おそらくインプットしちゃうでしょう。いやもうしちゃってるでしょう。
そしてそれが、そのうち表層化するのかな、と思っていますというポエムでした。