はじめに
とんでもなくご無沙汰になってしまいました。私の記事一覧を見ると時代を感じます。笑
さて、AIがどんどん浸透している昨今ですが、セキュリティなどの都合からSaaS型のAIが使えないケースは結構あるかと思います。
私の周りでも例外ではなかったので、表記の環境を作成しました。
この環境であれば入力内容が外部に漏れず、EC2内でのモデルの推論にとどまります。
基本AIとのやりとりで作りましたが、エラーなどでなかなか一発で立ち上がらなかったので、githubのパブリックリポジトリに登録することにしました。
せっかく作ったのでここで共有させていただきます。
ソース
内容
READMEに詳細は記載しているので、使うときは読んでください。
構成図もREADMEに載せています。
CloudFromationコマンド一発投げればそれだけで環境が立ち上がるようになっています。
特徴
- 必要最低限の構成
- NATなし(今回用途的にNATは不要だし、小さい環境の場合はNAT GatewayないしはNATサーバーを使うとその費用割合がかなり高くなってしまう(皆さん脳死的にNAT作らないようにね))
- パブリックサブネット1つ(NATは作らないためプライベートサブネットにEC2置くとEC2が通信できなくなってしまう)
- インバウンドのセキュリティグループはall close(セッションマネージャー接続前提)
- qwen2.5-coder:32bとqwen2.5-coder:14bのモデルをインストールするソース
- 別のモデルが良い場合は311行目と312行目をこのページから選んでモデル名置き換えれば使えるはず
おわりに
興味があれば使ってみてください。何かあればissueやプルリクエストください。
尚、qwen2.5-coder:32bをg5.2xlargeで動かすとあまり早くはないです。qwen2.5-coder:14bは早いです。qwen2.5-coder:32bの場合、もう一段上のGPU積んだマシンだと早くなります。が、AWSの仕様上、次のGPU性能のインスタンスはg5.12xlarge(単価5倍)になるのでご注意ください。と言っても、現在時点で1h5$程度ですので利用時間のみの起動を徹底すれば使える範囲かと思います。