どうもこんにちは。
今回は、以下の本を読んでいて学んだことをメモとしてまとめようと思います。
注意点
あくまでも私が本読んだ感想、いわば「読書感想文」となっておりますので、私なりの解釈が入っています。
その点を踏まえた上で読んでください。
リスクと課題
大規模なデータの取得と品質のコントロール
現在、世の中に出回っている生成AIの学習には想像できないレベルの大規模データが使用されています。普通に考えて想像できないレベルの大規模データをすべて人間が管理するって無理ですよね...
大規模データセットの例として、Webサイト情報を機会的に収集・加工して提供している「CommonCrawlデータセット」というものが存在します。加工しているとはいえ、中には不適切なデータが入り込んでいる可能性はあるでしょう。
こういったデータセット内のデータを人間が管理できないという問題から発生するのが、「大規模データの中には不適切なデータが紛れ込んでいる可能性がある」ということです。しかし、質の良い生成AIモデルを構築するためには、少なからず大規模なデータが必要になるのも間違いありません。
正直、どちらを取るかです。不適切なデータが紛れ込むのを許容して大規模データを使用する のか、不適切なデータが紛れ込まないように、人間が管理できるくらいの規模のデータを使用するのか。
おそらくほとんどの生成AIが前者でしょう。
しかしながら、GoogleがCommonCrawlデータセットから不適切なデータを除外した「Colossal Clean Crawled Corpus(C4)」というデータセットを公開しています。それでも、有害なコンテンツが含まれてしまっていることが確認されているようです。
また、CommonCrawlデータセットは著作権で保護された画像などが含まれているようで、これを使用したモデルの商用利用が認められていません。
あと、データの扱い関連で考慮に入れなきゃいけないのは、「ユーザが入力したデータがモデルの学習に使用されないか」ではないでしょうか。これは企業の機密情報や顧客情報、個人情報が世の中に漏洩してしまうリスクがあります。調べてみた感じだと、ChatGPTのTeamプランとEnterpriseプランは「ユーザの入力を学習には使用しない」と発表されているようですね。(間違っていたら指摘をお願いいたします。)
また、AWSのVPC内でAmazon Bedrock APIを使用した自作チャットアプリを開発し、それを使用することでデータの流出を抑えることができます。
不特定多数のユーザによるAIの入出力
ChatGPTなどの生成AIサービスでは、ユーザの入力によって出力内容のレベルが変わります。(プロンプトエンジニアリング)生成AIの出力内容は、ユーザのリテラシーに依存しています。
また、ユーザが生成AIを利用するときには「ハルシネーション」について考慮する必要があります。ハルシネーションとは、ユーザの入力に対して間違った回答をすることです。そのため、ユーザは出力された内容を確認する必要があり、入力するときに「参照するデータ」を与えた上で生成AIの回答させる方法(RAG)も一つの手です。
最近、RailsでRAGを実装してみたので、是非。
また、ハルシネーションとは異なるが、ユーザのリテラシーにつながる問題の一つとして、「ディープフェイク」という事件が増加しています。これは、実在の人物や風景によく似た、偽物の動画、写真、音声を作成し、SNS上にアップするという事件です。このディープフェイクは、ロシア×ウクライナ問題にも多大な影響をもたらしました。日本国内でも、有名人の容姿、音声を使用した不適切な動画が世の中には多く流れています。
このように、生成AIは便利なものであるが、使い方を間違えると国内外に多大な影響を与えかねないリスクを含んでいます。
政府の取り組み
上記のような問題を踏まえて、政府は「AI利活用原則」「人間中心のAI社会原則」が策定されています。
しかし、上記のように策定された原則は2018年や2019年に策定されたものであり、今も改正が進められています。
今後、もっと生成AIを安全に活用できるような法令が制定されて欲しいものですね。
今後の生成AI
今後と言わず、現在も生成AIを使用した業務効率化やシステムはすでに導入されています。記事の作成やマニュアルの作成などはすでに様々な企業で使われていると考えて良いでしょう。
しかし、日本はアメリカに比べて遅れをとっています。2023年8月時点で、アメリカの生成AI業務導入率は「25.9%」なのに対し、日本の導入率は「10.9%」となっています。今後、日本が発展していくには、まず生成AIの導入率でアメリカに追いつく必要があると思います。そのためには、なんらかの取り組みによって生成AIに対する企業の意識を変えていく必要がありそうです。
今後の生成AIは、まず以下の4点が向上すると考えられます。
精度
精度については言うまでもないでしょう。今後の技術の発展によって、ハルシネーションの確率が低くなっていく未来は容易に想像できます。
スピード
スピードについても言うまでもないですかね?複雑な処理をさらに高速にするCPUが誕生したり、生成AIを使用したアプリケーションのバックグラウンドの処理が最適化されていくことでスピードは向上していくと思います。
使いやすさ
使いやすさについては、自分が思いつくのはChatGPTのデスクトップアプリです。特別な機能はついていないですが、自分にとっては非常に使いやすさを感じています。「Option+スペース」とかでチャットを開始できるんですよね。
メッセージ送信すると、デスクトップアプリに移動してくれます。
個人的には、デスクトップアプリに移動しないで、回答を見れたらもっといいなと思います。
コンテンツの種類の多さ
テキストや数値、画像、音声、プログラミングコードなどの様々なコンテンツを出力してくれる点は、現在でも生成AIが使用される理由の一つだと思います。
生成AIから汎用人工知能へ
生成AIが「自分で考え、自分で行動」するようになったら、それはもう「完璧に近い人間の誕生」なのかなと思います。自分自身は、生成AIが成長して「汎用人工知能」となったら、開発業務はどのようになるんだろう。アイアンマンとかアベンジャーズで出てきていた、「ジャーヴィス」のような最強のサポーターを一人一つ持つことができるのかなとか考えるとワクワクします。
一方で、現在人間が行なっている業務が汎用人工知能によって奪われてしまうのも事実でしょう。生身の人間と汎用人工知能がどのように共存していくのかが今後の論点になりそうですね。