@Maki-HamarukiLab(Maki Sunwood AI Labs.)

【リリースノート】Cinderella v0.2.0 - Agentic Visionで画像理解が進化

Posted at 2026-01-29

はじめに

本日、Cinderella のバージョン v0.2.0 をリリースしました！

このアップデートは、Agentic Vision（エージェント的ビジョン） の力で、画像理解と対話型AI体験を次のレベルへと進化させるものです。Gemini 3 Flash の最先端視覚機能を活用し、Think-Act-Observe ループによる自律的画像分析、ズームイン検査、アノテーション、データ可視化を実現しました。

本リリースには 9つのプルリクエスト (#7, #9, #11, #13, #15, #16, #18, #20, #22) がマージされ、v0.1.0 以降の全ての改善が含まれています。

主な変更点

今回のリリースにおける主な変更点は以下の通りです。

Agentic Vision: Gemini 3 Flash Preview に対応した自律的画像分析
Discord Bot 機能拡張: ファイル添付、議論機能、メッセージ返信の追加
Browser API サービス: 新しい browser-api サービスの追加
Claude Code Skills: スキル機能の対応

🔮 Agentic Vision（エージェント的ビジョン）

Gemini 3 Flash の最先端視覚機能を活用した、自律的な画像分析機能です。

主な機能

Gemini 3 Flash Preview 対応: 最新の Gemini 3 Flash モデルに対応
Think-Act-Observe ループ: 自律的な画像理解とタスク実行
ズームイン検査: 高解像度画像の詳細分析
アノテーション機能: 画像へのバウンディングボックスとラベル描画
データ可視化: 表やグラフからのデータ抽出・プロット生成
バッチ分析: 複数画像の一括処理
コード実行による画像操作: Python実行環境での動的画像処理

🤖 Discord Bot 機能拡張

Discord Bot はファイル添付、議論機能、メッセージ返信を備えた真の対話型エージェントへと進化しました。

マルチサービス構成への移行

Docker Compose で cc-api と discord-bot を分離し、スケーラビリティと保守性を向上させました。

新機能

メンション対応: @Cinderella で呼び出し可能
ロギング機能: 詳細な実行ログとデバッグ情報
FastAPI サーバー: Moltbot 互換 API エンドポイントの実装
ファイル添付対応: 画像ファイルを添付して分析可能
議論機能: !debate コマンドで複数視点の議論を生成
メッセージ返信: スレッドへの返信と対話履歴の管理
リアクション機能: メッセージへのリアクション追加

🌐 Browser API サービス

新しい browser-api サービスを docker-compose に追加し、セキュアなクロスオリジンアクセスと強化されたエラーハンドリングを実現しました。

🛠️ Claude Code Skills

/agentic-vision-gemini スキルで高度な画像分析をコマンド一つで実行可能になりました。CLAUDE.md を含むプロジェクト設定も追加されています。

技術的な詳細

バグ修正

セキュリティ強化: CORS設定と環境変数検証の改善
コード品質: 玲子姐さんと美咲先輩によるレビュー反映
Dockerfile 改善: cc-api に curl、google-genai を追加
ハンドラー修正: スレッド取得を fetch_channel に変更
エンドポイントURL修正: Discord スキルの URL を修正

インフラ変更

Google API キー: .env.example に GOOGLE_API_KEY を追加
Docker ボリューム: ワークスペースとメディアディレクトリの設定を更新
Gitignore: browser-api 関連、plans、tmp フォルダを追加
テスト構成: テストスイートを追加・再構成
cinderella ユーザー: セキュリティのための専用ユーザーとsudo権限を設定

ドキュメント

Agentic Vision README: APIリファレンスとユースケースを更新
Browser API README: セットアップ手順を追加
Discord Bot ドキュメント: 返信機能と議論機能のドキュメント追加
テスト README: パスを最新化
日本語README: 言語切り替えバッジを追加

クイックスタート

# 1. Google API Key を設定
cp .env.example .env
# .env を編集: GOOGLE_API_KEY=your_key_here

# 2. Docker で起動
docker compose up -d

# 3. Agentic Vision を実行
curl -X POST http://127.0.0.1:8081/v1/agentic-vision/analyze \
  -H "Content-Type: application/json" \
  -d '{"image_url": "https://example.com/image.jpg", "prompt": "この画像を詳細に説明して"}'

Discord Bot の使用方法

# 画像を添付してメンション
@Cinderella この画像を分析して

# 議論を開始
!debate テーマ: AIの倫理について

まとめ

Cinderella v0.2.0 は、Agentic Vision の導入により、単なる画像分析ツールから真の視覚的エージェントへの進化を表しています。画像を「見る」だけでなく「理解」し、「考え」「行動」する新しい時代の幕開けです。

項目	改善内容	メリット
Agentic Vision	Gemini 3 Flash対応	自律的な画像分析が可能に
Discord Bot	ファイル添付・議論機能	対話型AI体験が向上
Browser API	新しいサービス追加	クロスオリジンアクセスが強化
Skills	Claude Code対応	コマンド一つで高度な分析が可能

📚 参考リンク

GitHubリポジトリ: Sunwood-AI-OSS-Hub/Cinderella
リリースページ: v0.2.0 Release
変更点の比較: v0.1.0...v0.2.0 の差分

"Vision is the art of seeing what is invisible to others" — Jonathan Swift

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up