今日はクリスマスイブですね。
みなさんはサンタクロースを信じますか?
エンジニアにとってのサンタは、**「面倒なコーディングを代わりにやってくれる優秀なAIエージェント」**かもしれません。
最近、LLM界隈では**「Agentic Workflow(エージェンティック・ワークフロー)」**がトレンドです。単にチャットするだけでなく、AI自身がタスクを計画し、ツールを使い、実行する。
そこで今回は、Google DeepMindの最新モデル Gemini 3 のマルチモーダル能力をフル活用して、
「紙に描いた落書きを渡すと、自律的に物理演算付きのゲームとして実装してくれるAgent」
を作ってみました。
その成果物を GamiCool.com というWebサービスとして公開したので、その技術的な裏側を共有します。

3行でまとめ
Gemini 3 のマルチモーダル機能で、手書きの「絵」から地形とギミックを構造化データとして抽出。
Agentic Workflow を組み、AIが「レベルデザイナー」と「プログラマー」の役割を自律的に実行。
成果物として、ブラウザで動く GamiCool をリリースした(遊んでみてね)。
なぜ Gemini 3 なのか?
今回、「Image-to-Game(画像からゲーム生成)」を実装するにあたり、いくつかのモデルを検証しました。
結論として、Gemini 3 が圧倒的でした。理由は以下の2点です。
空間認識能力の高さ:
「手書きの迷路」や「適当に描いた棒人間」を認識させるとき、Gemini 3 はピクセル座標とオブジェクトの関係性を非常に正確に理解します。
Instruction Following:
「Phaser.js(ゲームエンジン)の物理挙動に合わせてコードを書いて」という複雑な指示に対する追従性が高く、ハルシネーション(幻覚)が少なかったです。
アーキテクチャ:AIを「ゲーム開発会社」にする
単にプロンプトを投げるだけでは、面白いゲームは動きません。
そこで、処理を複数のAgentに分割するワークフローを構築しました。
code Mermaid
graph TD
A[User Input: Sketch/Image] --> B(Vision Agent)
B --> C{Game Logic Agent}
C --> D[Coding Agent]
D --> E[Output: Playable Game]
- Vision Agent (目)
ユーザーがアップロードした画像を解析し、「何が壁で、何がプレイヤーか」を定義します。
Gemini 3 には、画像内の色や形状から「物理的特性(重い、滑る、敵である)」を推論させます。
2. Game Logic Agent (脳)
ここで「ゲームとしての面白さ」を注入します。
「もし画像に赤いトゲがあったら、それは即死トラップにする」「青いエリアは氷の床(摩擦係数を下げる)」といったルールを動的に決定します。
3. Coding Agent (手)
最後に、Phaser.js のコードを生成します。
ここはZero-shotで生成していますが、Gemini 3 のおかげで、コリジョン(当たり判定)の設定などが驚くほど正確に出力されます。
実際にできたもの (Demo)
論より証拠。実際にこのAgentが生成したゲームがこちらです。
Web上で誰でも試せるようにしました。
👉 https://gamicool.com/ (AI Game Generator)
Text-to-Game: 「マリオ風の横スクロールアクションを作って」と頼むだけで動きます。
Image-to-Game: お子さんの落書きや、適当な図形をアップロードしてみてください。
Video-to-Game: (実験的機能)動画の動きをゲームに変換します。
技術的な課題と今後の展望
正直に言うと、まだ課題はあります。
特に**「推論レイテンシ」と「物理演算の微調整」**です。たまにAIが張り切りすぎて、クリア不可能な理不尽ゲーム(無理ゲー)を生成することもあります(笑)。
ただ、**「アイデア(入力)からデプロイ(出力)まで、人間が1行もコードを書かない」**という体験は、未来を感じさせるものになりました。
最後に

今日はクリスマスイブです。
もしお時間があれば、ぜひ https://gamicool.com/ で遊んでみてください。
そして、「もっとこうした方がいい」「ここの挙動がおかしい」といった**技術的なフィードバック(マサカリ)**を頂けると、開発者として最高のクリスマスプレゼントになります!
みなさん、良いお年を!
Happy Hacking! 🚀