はじめに
本日、Cinderella のバージョン v0.2.0 をリリースしました!
このアップデートは、Agentic Vision(エージェント的ビジョン) の力で、画像理解と対話型AI体験を次のレベルへと進化させるものです。Gemini 3 Flash の最先端視覚機能を活用し、Think-Act-Observe ループによる自律的画像分析、ズームイン検査、アノテーション、データ可視化を実現しました。
本リリースには 9つのプルリクエスト (#7, #9, #11, #13, #15, #16, #18, #20, #22) がマージされ、v0.1.0 以降の全ての改善が含まれています。
主な変更点
今回のリリースにおける主な変更点は以下の通りです。
- Agentic Vision: Gemini 3 Flash Preview に対応した自律的画像分析
- Discord Bot 機能拡張: ファイル添付、議論機能、メッセージ返信の追加
- Browser API サービス: 新しい browser-api サービスの追加
- Claude Code Skills: スキル機能の対応
🔮 Agentic Vision(エージェント的ビジョン)
Gemini 3 Flash の最先端視覚機能を活用した、自律的な画像分析機能です。
主な機能
- Gemini 3 Flash Preview 対応: 最新の Gemini 3 Flash モデルに対応
- Think-Act-Observe ループ: 自律的な画像理解とタスク実行
- ズームイン検査: 高解像度画像の詳細分析
- アノテーション機能: 画像へのバウンディングボックスとラベル描画
- データ可視化: 表やグラフからのデータ抽出・プロット生成
- バッチ分析: 複数画像の一括処理
- コード実行による画像操作: Python実行環境での動的画像処理
🤖 Discord Bot 機能拡張
Discord Bot はファイル添付、議論機能、メッセージ返信を備えた真の対話型エージェントへと進化しました。
マルチサービス構成への移行
Docker Compose で cc-api と discord-bot を分離し、スケーラビリティと保守性を向上させました。
新機能
-
メンション対応:
@Cinderellaで呼び出し可能 - ロギング機能: 詳細な実行ログとデバッグ情報
- FastAPI サーバー: Moltbot 互換 API エンドポイントの実装
- ファイル添付対応: 画像ファイルを添付して分析可能
-
議論機能:
!debateコマンドで複数視点の議論を生成 - メッセージ返信: スレッドへの返信と対話履歴の管理
- リアクション機能: メッセージへのリアクション追加
🌐 Browser API サービス
新しい browser-api サービスを docker-compose に追加し、セキュアなクロスオリジンアクセスと強化されたエラーハンドリングを実現しました。
🛠️ Claude Code Skills
/agentic-vision-gemini スキルで高度な画像分析をコマンド一つで実行可能になりました。CLAUDE.md を含むプロジェクト設定も追加されています。
技術的な詳細
バグ修正
- セキュリティ強化: CORS設定と環境変数検証の改善
- コード品質: 玲子姐さんと美咲先輩によるレビュー反映
- Dockerfile 改善: cc-api に curl、google-genai を追加
-
ハンドラー修正: スレッド取得を
fetch_channelに変更 - エンドポイントURL修正: Discord スキルの URL を修正
インフラ変更
-
Google API キー:
.env.exampleにGOOGLE_API_KEYを追加 - Docker ボリューム: ワークスペースとメディアディレクトリの設定を更新
- Gitignore: browser-api 関連、plans、tmp フォルダを追加
- テスト構成: テストスイートを追加・再構成
- cinderella ユーザー: セキュリティのための専用ユーザーとsudo権限を設定
ドキュメント
- Agentic Vision README: APIリファレンスとユースケースを更新
- Browser API README: セットアップ手順を追加
- Discord Bot ドキュメント: 返信機能と議論機能のドキュメント追加
- テスト README: パスを最新化
- 日本語README: 言語切り替えバッジを追加
クイックスタート
# 1. Google API Key を設定
cp .env.example .env
# .env を編集: GOOGLE_API_KEY=your_key_here
# 2. Docker で起動
docker compose up -d
# 3. Agentic Vision を実行
curl -X POST http://127.0.0.1:8081/v1/agentic-vision/analyze \
-H "Content-Type: application/json" \
-d '{"image_url": "https://example.com/image.jpg", "prompt": "この画像を詳細に説明して"}'
Discord Bot の使用方法
# 画像を添付してメンション
@Cinderella この画像を分析して
# 議論を開始
!debate テーマ: AIの倫理について
まとめ
Cinderella v0.2.0 は、Agentic Vision の導入により、単なる画像分析ツールから真の視覚的エージェントへの進化を表しています。画像を「見る」だけでなく「理解」し、「考え」「行動」する新しい時代の幕開けです。
| 項目 | 改善内容 | メリット |
|---|---|---|
| Agentic Vision | Gemini 3 Flash対応 | 自律的な画像分析が可能に |
| Discord Bot | ファイル添付・議論機能 | 対話型AI体験が向上 |
| Browser API | 新しいサービス追加 | クロスオリジンアクセスが強化 |
| Skills | Claude Code対応 | コマンド一つで高度な分析が可能 |
📚 参考リンク
- GitHubリポジトリ: Sunwood-AI-OSS-Hub/Cinderella
- リリースページ: v0.2.0 Release
- 変更点の比較: v0.1.0...v0.2.0 の差分
"Vision is the art of seeing what is invisible to others" — Jonathan Swift
