こちらのイベントで私が話した内容のサマリーです。参加いただいた皆様ありがとうございました!
資料はこちらにアップロードしています。
また、途中で触れたQ&A botのサンプルノートブックです。
生成AIの基礎
生成AIとは
生成AIの前に人工知能、機械学習、ディープラーニングを説明させてください。
人工知能とは、人間レベルの知能を模倣し、人間を上回る能力を持つシステムの作成を狙いとした学際的なコンピューターサイエンスの領域です。
機械学習とは、明示的にプログラムすることなしに既存のデータから学習し、予測を行う技術です。
ディープラーニングとは、データからの学習に「人工ニューラルネットワーク」を活用する技術です。第三次AIブームのきっかけにもなりました。
そして、生成AIはディープラーニングの一領域であり、さまざまなコンテンツの生成にフォーカスしています。
生成AIモデルは、数式的に世界を近似する機械学習モデリングの分派となります。
なぜ、今になって生成AIが実現されたのでしょうか?大きく3つの要因があります。
- 大規模データセット
- LLMの学習で活用できるデータが潤沢に存在しています。
- 計算パワー
- かつては簡単にGPUを利用できませんでしたが、クラウドで簡単にさまざまなスペックのGPU、CPUを活用できるようになりました。
- 革新的なDLモデル
- GAN、トランスフォーマーアーキテクチャ、RLHFなどによって高い精度を示す生成モデルが実現されました。
なぜ、今生成AIを機にする必要があるのか?
生成AIモデルの精度や効果が転換点を超えました
- 1年前には不可能だったユースケースを実現するのに十分にパワフルです
- 技術者ではないビジネスユーザーが利用するにも十分に経済的です
生成AIモデルとツールがすでに利用可能です
- 多くのモデルはオープンソースでありカスタマイズできます
- パワフルなGPUが必要ですが、クラウドで利用できます
生成AIのユースケース
知性のある会話、クリエイティブなテキスト、コード生成などが可能です。
- コンテンツ生成
- 質問/回答
- バーチャルアシスタント
- コンテンツのパーソナライゼーション
- 言語スタイルの転換
- ストーリーテリング、詩、クリエイティブなライティング
- 翻訳
- コード生成 / オートコンプリート
LLMと生成AI
LLMとは
大規模言語モデル(LLM) とは、高度な言語処理能力を達成するために膨大なデータセットでトレーニングされたモデルです。
基盤モデルとは、膨大な量のデータでトレーニングされ、特定の言語理解や生成タスクのためにファインチューンされた大規模MLモデルです。
トレーニング対象のテキストをトークナイズ(分かち書き)し、エンべディング(多次元ベクトル)に変換します。その後、ある単語の次に出現する単語を予測するようにトレーニングを行いLLMを構築します。
単にやり取りを行うだけでなく、システムに組み込むことで自動化、効率化が可能です。
LLMの活用
田辺三菱製薬様に以下の事例をご紹介いただきました。すべてがシステムでの活用を前提としており非常に興味深く、セキュリティやコストなどに関して多くの質問をいただきました。
- テーブル自動作成→メタデータ自動設定
- インシデント通知内容の翻訳および要約、今後の攻撃想定
- ヘルプデスクQABot化
- リアルタイム翻訳・要約
また、上記取り組みでは弊社Databricksを積極的にご活用いただいており、非常に感謝です。QABotであれば1日で稼働まで持っていけるとの発言も。
生成AIの潜在的なリスクと課題
以下のような点をカバーしました。こちらは技術的な話から外れますので、詳細は割愛します。資料をご覧ください。
- 法律的な問題
- プライバシー
- セキュリティ
- 知的財産の保護
- 倫理的な問題
- バイアス
- 間違った情報
- 社会的/環境的問題
- 労働力へのインパクト
- 環境への影響
まとめ
私からは生成AIの概要を説明させていただきましたが、田辺三菱製薬様からは非常に実践的な取り組みをご紹介いただき多くの質疑応答があり、大変有意義な会となりました。また、当日は投票機能を用いて、参加者のロール、生成AIの活用状況、開発形態などをヒアリングさせていただき、こちらも大変興味深い結果となりました。
次回も楽しみにしていてください!