1
2

ゼロから始めるAIシステム開発 #01 「初歩の初歩」

Last updated at Posted at 2024-09-16

自己紹介

ミナイと申します。

  • 非エンジニア
  • 工業系の高校と大学でプログラミング経験あり
  • 進路は別ジャンルへ、20年ほどブランクあり
    このほぼゼロの状態からAIシステム開発を勉強する過程を公開していこうと思います。

1週目

  • Amazon Bedrockについて調べる
    そもそもAWSについて概念しか分かってないので単語レベルですべてが分からない。エンジニア語が出るたびにググる始末。寄り道に寄り道を重ねた末にAWSコンソールをチョットワカル程度になり、Stable Diffusion XLを体験。
  • Stable Diffusion XLについて調べる
    触りながら調べる。思い描いた構図で出力するのがかなり難しい。ガチャとはよく言ったもの。多少でも絵心があればi2iでやったほうが大幅に早そう。

SDXL 設定について

image.png

  • Action
    t2i、i2i、編集の3つ。
  • 応答画像
    ランドスケープは横長、ポートレートは縦長
  • プロンプト強度
    プロンプトを反映させる強度。
  • 生成ステップ
    サンプリングの回数。大きければ正確な画像が出やすいらしい。
  • シード
    ガチャの番号みたいなもの。同じシード値にすると同じキャラを出せたりするらしい。

コスト

SDXLは小サイズで1枚3円弱、Titanはもうちょっとだけ安い。

入門書を読むことに

ボスからの提案により入門書を読んで実践することに。

Amazon Bedrock 生成AIアプリ開発入門 [AWS深掘りガイド]
https://amzn.asia/d/co7MB5S
2240915.jpg
80Pほど読了。2章のハンズオンの部分直前で全体の15%ほど。かなり基本のキからやってくれるのでありがたい。(以下の記述には一部僕の解釈が含まれます。)

1章 生成AIの基本と動向

箇条書きでメモ。

  • 人口知能 ⊃ 機械学習 ⊃ 深層学習
    生成AIは深層学習。特徴量(結論を導くための手がかり。たとえば競馬なら「府中は直線が長いから差し馬が有利では?」的な推論のこと)を人間の手で与えずとも機械が見つけてくれるのが強み。
  • 基盤モデルとは
    大量のデータでトレーニングされた汎用モデルのこと。これを調整することで用途に特化させることができる。
  • パラメーター
    ここからはモデルの用語。この数字が大きいほど推論の性能が上がるが計算リソースやコストも上がる。
  • トークン
    モデルがデータを処理する際の単位。モデルの一度の処理限界量のように表記される。8Kトークンだとブログ記事1本程度、100Kトークンだと文庫本1冊程度が目安。
  • ディメンション(次元数)
    「埋め込み」の性能の一つ。埋め込みとは単語にベクトルを付与して関連性を角度や距離の遠近で表現できるようにすること。次元数が大きいと多方向(多次元)にベクトルを伸ばせるので多くの情報を保持できる。

2章 Amazon Bedrock入門

他サービスと比較してのBedrockの優位性と使える生成AIについての説明。
Bedrockの優位性は

  • シェアが高いので知見を得やすい
  • 既存のAWSシステムに生成AIを組み込みやすい
  • モデルを利用する際にデプロイが不要
  • 高いセキュリティとガバナンス
    とのこと。

使えるモデルの種類は主に3種

  • テキスト生成
  • 埋め込み
  • 画像生成

テキスト生成モデルは

  • Anthoropic社の「Claude 3」シリーズ
    この書籍オススメのモデル。他は日本語非対応なものが多いがこれは上中下位3段階のモデルが全て日本語対応。
  • Cohere社の「Command R」シリーズ
    RAG(解説は4章)に強いらしい。最上位モデルは日本語対応。
  • Amazonの「Titan Text」シリーズ
    RAGやAIエージェント(解説は5章)に強いらしい。最上位モデルは英語のみで中位下位モデルは日本語対応。自社モデルだからかClaude3シリーズより安め。
  • Meta社の「Llama」シリーズ
    オープンソースなのが特徴。コストはClaude3シリーズより安め。
  • Mistral AI社の「Mistral」シリーズ
    日本語非対応だが高性能でオープンな大規模言語モデルが含まれるため企業開発向き。コストは普通。
  • AI21 Labs社の「Jurassic」シリーズ
    日本語非対応でコストも高め。あまり利点は感じない。

埋め込みモデルは

  • Amazonの「Titan Text Embeddings V2」「Titan Multimodal Embeddings G1」
  • Cohere社の「Embed」シリーズ
    の2社のみ。Titanのほうが入力可能なトークンが大きい上にコストも安い。Titan Multimodal Embeddings G1はBedrockで唯一マルチモーダル(テキストに画像を含んだ入力のこと)の埋め込みが可能。

画像生成モデルは

  • Stability AI社の「Stable Diffusion XL」
  • Amazonの「Titan Image Generator」シリーズ
    の2つ。書籍の説明が明らかに薄い。テキスト生成推しなのだろうか。Titanシリーズのほうがちょっと安め。

ハンズオンへ

書籍はここからハンズオンのコーナーなのだが使用されているCloud 9がサービスを停止しているため代替手段を使用予定。

次回へ続く

今回はここまで。今週はオンラインとオフラインのセミナー2つを受講予定なのでそれについてレポート予定。

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2