この記事の目的
生成 AI の基本概念についてばっちり説明できるようになる
生成 AI の基礎となる概念
トークン
- テキストやデータを小さな単位(単語、部分単語、文字などに分割したもので、モデルがテキストを生成する際の最小単位
- 私は米が好き→["私","は","米","が","好き"]
チャンク化
- 大きなデータセットを「チャンク」と呼ばれる細かい単位に分解して処理すること
- 細かくすることで処理がしやすくなる
埋め込み表現
- テキストや画像など複雑なデータを数値化(ベクトル化)すること
- 単語同士の類似関係も表現できる
プロンプトエンジニアリング
- AIに渡す入力(プロンプト)を調整して、望む出力を得られるようにすること
基盤モデル(LLM)
- 大量のデータで事前に学習された汎用的なモデルのこと
- 汎用的なので調節していろいろなタスクに適用できる
- トランスフォーマー
- 自然言語処理や画像処理が得意。Geminiなどに使われている
- CNN(畳み込みニュートラルネットワーク)
- 主に画像認識に使う。物体検出が得意
- RNN(リカレントニュートラルネットワーク)
- 時系列データやシーケンシャルデータの処理に有用なモデル。データの順序情報を保持することができる
マルチモーダルモデル
- 複数のデータを同時に処理できるモデル
- 画像からテキストを生成したり、テキストから画像を生成したり
拡散モデル
- 画像などを一回拡散(ノイズを入れる)して解像度を低くして、それを基に戻す過程で新しい画像データを生成すること。らしい…
- 画像生成に使用される