はじめに
前回に引き続き、AIF-C01の学習を進める中で学習したことを整理していきます!
AI/MLの基礎
AIとMLの違いとは?
項目 | 内容説明 |
---|---|
AI(人工知能) | 人間の知能を模倣し、思考や判断,学習など知的行動を実現する技術領域。 |
ML(機械学習) | データからパターンを学習し、予測や分類を行うAIの一分野。 |
主な学習手法
手法 | 説明 | 例 |
---|---|---|
教師あり学習 | 入力と正解ラベルを使った学習。正解を予測できるように訓練。 | 画像分類、スパム検出 |
教師なし学習 | 正解ラベルなしで、データの構造・パターンを探索。 | クラスタリング |
強化学習 | 環境との相互作用で報酬を最大化する行動を学習。 | ゲームAI、ロボット制御 |
データの種類
タイプ | 内容説明 | 例 |
---|---|---|
構造化データ | 整然とした形式を持ち、表形式などで扱いやすいデータ。 | 表形式データ、顧客情報 |
非構造化データ | 決まった形式を持たず、扱いに工夫が必要なデータ。 | テキスト、画像、音声 |
MLパイプラインの流れ
ステップ | 内容説明 |
---|---|
データ収集 | 多様なソースからデータを集める。 |
前処理 | 欠損値補完や特徴量抽出など、学習に適した形に整える。 |
モデル訓練 | 機械学習アルゴリズムを使い、データからパターンを抽出。 |
評価 | テストデータで精度や過学習をチェック。 |
デプロイ | 学習済みモデルを実際のシステムに組み込み利用。 |
モニタリング | 運用中のモデルを監視し、性能維持や必要に応じて再学習を実施。 |
代表的な評価指標
指標 | 説明 |
---|---|
Accuracy | 全データに対して正しく分類できた割合。全体的な正確さの指標。 |
Precision | 陽性と予測した中で正しく陽性だった割合。偽陽性を減らす指標。 |
Recall | 実際に陽性の中で正しく陽性と予測できた割合。偽陰性を減らす指標。 |
F1スコア | PrecisionとRecallの調和平均。バランスが重要な場合に用いられる。 |
ROC-AUC | 真陽性率と偽陽性率のトレードオフを評価する曲線の下の面積。モデルの識別能力を示す。 |
AWS関連サービス
サービス名 | イメージ | 説明 |
---|---|---|
Amazon SageMaker | ![]() |
モデルの実験室のようにMLを 構築・訓練・デプロイする統合環境 |
Amazon Transcribe | ![]() |
音声を文字に変換 |
Amazon Translate | ![]() |
言語を自動翻訳 |
Amazon Comprehend | ![]() |
テキストから感情・意味を理解 |
Amazon Lex | ![]() |
会話型アプリ・チャットボット作成 |
Amazon Polly | ![]() |
テキストを自然な音声に変換 |
ジェネレーティブAIの基礎
(主要概念・ユースケース・長所と短所)
ジェネレーティブAI(生成AI)とは、学習済みのデータから新しいテキスト、画像、音楽、動画などのコンテンツを自動生成する人工知能(AI)です。
主要概念
用語 | 説明 |
---|---|
トークン (Token) | テキストをAIが処理しやすい最小単位に分割したもの。単語や記号、部分単語なども含む。 例:「I love AI」→「I」「 love」「 AI」など。 |
埋め込み (Embedding) | テキストや画像などを数値ベクトルに変換し、類似度や意味的関係を数学的に表現。 例:「犬」と「猫」は似たベクトルになる。 |
基盤モデル (Foundation Model) | 多目的に使える大規模な事前学習済みモデル。様々なタスクに転用可能。 例:大規模言語モデル(LLM)や画像生成モデルなど。 |
拡散モデル (Diffusion Model) | 画像生成などで使われる生成モデルの一種。ノイズを加えた後、徐々にノイズを除去しながら高品質な画像を生成する技術。 |
生成AIのユースケース
分野 | 代表例・説明 |
---|---|
テキスト生成 | チャットボット、文章自動作成、ストーリー生成など |
要約 | 長文の自動要約、ニュースダイジェスト作成 |
画像生成 | イラスト、写真風画像、デザイン案の自動生成 |
コード生成 | プログラミングコードの自動生成、補完、コードレビュー支援 |
ジェネレーティブAIの長所と短所
分類 | ポイント |
---|---|
長所 | ・多用途で様々なコンテンツ生成に対応可能 ・迅速に大量のコンテンツを生成できる |
短所 | ・幻覚(Hallucination):根拠のない誤情報を生成することがある ・不正確さ:情報の誤りや理解不足が発生しやすい ・バイアス:学習データの偏りに起因する公平性問題や偏見のある出力が生じることがある |
AWS関連サービス
サービス名 | イメージ | 説明 |
---|---|---|
Amazon Bedrock | 🗿 | 基盤となる大きな岩=複数の基盤モデルをAPI経由で利用 |
SageMaker JumpStart | ![]() |
事前学習済みモデルやソリューションをすぐ利用できる機能。生成AI・MLのスターターパック。 |
PartyRock | 🛠️ | プログラミング不要で生成AIアプリを作成。作成したアプリはURLで共有・公開可能。 |
解説補足
- トークンは生成AIがテキストを処理する際の基本単位で、課金や計算量の基準にもなる。
- 埋め込みにより、AIは単語や画像の意味・特徴を数学的に把握し、類似性の比較や文脈理解に役立てる。
- 基盤モデルは膨大なデータにより事前学習され、汎用的に使えるため、多様なタスクに素早く対応可能。
- 拡散モデルは最近の画像生成の主要技術で、ノイズ除去の過程を通じて高精度な生成が可能。
- 幻覚(Hallucination) は生成AIに特有の問題で、出力の信頼性向上が課題。