ゼロから始めるAIシステム開発 #01 「初歩の初歩」

Last updated at 2024-09-16Posted at 2024-09-16

自己紹介

ミナイと申します。

Amazon Bedrockについて調べる
そもそもAWSについて概念しか分かってないので単語レベルですべてが分からない。エンジニア語が出るたびにググる始末。寄り道に寄り道を重ねた末にAWSコンソールをチョットワカル程度になり、Stable Diffusion XLを体験。
Stable Diffusion XLについて調べる
触りながら調べる。思い描いた構図で出力するのがかなり難しい。ガチャとはよく言ったもの。多少でも絵心があればi2iでやったほうが大幅に早そう。

SDXLは小サイズで1枚3円弱、Titanはもうちょっとだけ安い。

ボスからの提案により入門書を読んで実践することに。

Amazon Bedrock 生成AIアプリ開発入門［AWS深掘りガイド］
https://amzn.asia/d/co7MB5S

80Pほど読了。2章のハンズオンの部分直前で全体の15％ほど。かなり基本のキからやってくれるのでありがたい。（以下の記述には一部僕の解釈が含まれます。）

箇条書きでメモ。

人口知能 ⊃ 機械学習 ⊃ 深層学習
生成AIは深層学習。特徴量（結論を導くための手がかり。たとえば競馬なら「府中は直線が長いから差し馬が有利では？」的な推論のこと）を人間の手で与えずとも機械が見つけてくれるのが強み。
基盤モデルとは
大量のデータでトレーニングされた汎用モデルのこと。これを調整することで用途に特化させることができる。
パラメーター
ここからはモデルの用語。この数字が大きいほど推論の性能が上がるが計算リソースやコストも上がる。
トークン
モデルがデータを処理する際の単位。モデルの一度の処理限界量のように表記される。8Kトークンだとブログ記事1本程度、100Kトークンだと文庫本1冊程度が目安。
ディメンション（次元数）
「埋め込み」の性能の一つ。埋め込みとは単語にベクトルを付与して関連性を角度や距離の遠近で表現できるようにすること。次元数が大きいと多方向（多次元）にベクトルを伸ばせるので多くの情報を保持できる。

他サービスと比較してのBedrockの優位性と使える生成AIについての説明。
Bedrockの優位性は

使えるモデルの種類は主に3種

テキスト生成モデルは

Anthoropic社の「Claude 3」シリーズ
この書籍オススメのモデル。他は日本語非対応なものが多いがこれは上中下位3段階のモデルが全て日本語対応。
Cohere社の「Command R」シリーズ
RAG（解説は4章）に強いらしい。最上位モデルは日本語対応。
Amazonの「Titan Text」シリーズ
RAGやAIエージェント（解説は5章）に強いらしい。最上位モデルは英語のみで中位下位モデルは日本語対応。自社モデルだからかClaude3シリーズより安め。
Meta社の「Llama」シリーズ
オープンソースなのが特徴。コストはClaude3シリーズより安め。
Mistral AI社の「Mistral」シリーズ
日本語非対応だが高性能でオープンな大規模言語モデルが含まれるため企業開発向き。コストは普通。
AI21 Labs社の「Jurassic」シリーズ
日本語非対応でコストも高め。あまり利点は感じない。

埋め込みモデルは

Amazonの「Titan Text Embeddings V2」「Titan Multimodal Embeddings G1」
Cohere社の「Embed」シリーズ
の2社のみ。Titanのほうが入力可能なトークンが大きい上にコストも安い。Titan Multimodal Embeddings G1はBedrockで唯一マルチモーダル（テキストに画像を含んだ入力のこと）の埋め込みが可能。

画像生成モデルは

Stability AI社の「Stable Diffusion XL」
Amazonの「Titan Image Generator」シリーズ
の2つ。書籍の説明が明らかに薄い。テキスト生成推しなのだろうか。Titanシリーズのほうがちょっと安め。

書籍はここからハンズオンのコーナーなのだが使用されているCloud 9がサービスを停止しているため代替手段を使用予定。

今回はここまで。今週はオンラインとオフラインのセミナー2つを受講予定なのでそれについてレポート予定。