1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【リリースノート】Cinderella v0.2.0 - Agentic Visionで画像理解が進化

Posted at

v0.2.0 Release

はじめに

本日、Cinderella のバージョン v0.2.0 をリリースしました!

このアップデートは、Agentic Vision(エージェント的ビジョン) の力で、画像理解と対話型AI体験を次のレベルへと進化させるものです。Gemini 3 Flash の最先端視覚機能を活用し、Think-Act-Observe ループによる自律的画像分析、ズームイン検査、アノテーション、データ可視化を実現しました。

本リリースには 9つのプルリクエスト (#7, #9, #11, #13, #15, #16, #18, #20, #22) がマージされ、v0.1.0 以降の全ての改善が含まれています。

主な変更点

今回のリリースにおける主な変更点は以下の通りです。

  • Agentic Vision: Gemini 3 Flash Preview に対応した自律的画像分析
  • Discord Bot 機能拡張: ファイル添付、議論機能、メッセージ返信の追加
  • Browser API サービス: 新しい browser-api サービスの追加
  • Claude Code Skills: スキル機能の対応

🔮 Agentic Vision(エージェント的ビジョン)

Gemini 3 Flash の最先端視覚機能を活用した、自律的な画像分析機能です。

主な機能

  • Gemini 3 Flash Preview 対応: 最新の Gemini 3 Flash モデルに対応
  • Think-Act-Observe ループ: 自律的な画像理解とタスク実行
  • ズームイン検査: 高解像度画像の詳細分析
  • アノテーション機能: 画像へのバウンディングボックスとラベル描画
  • データ可視化: 表やグラフからのデータ抽出・プロット生成
  • バッチ分析: 複数画像の一括処理
  • コード実行による画像操作: Python実行環境での動的画像処理

🤖 Discord Bot 機能拡張

Discord Bot はファイル添付、議論機能、メッセージ返信を備えた真の対話型エージェントへと進化しました。

マルチサービス構成への移行

Docker Compose で cc-apidiscord-bot を分離し、スケーラビリティと保守性を向上させました。

新機能

  • メンション対応: @Cinderella で呼び出し可能
  • ロギング機能: 詳細な実行ログとデバッグ情報
  • FastAPI サーバー: Moltbot 互換 API エンドポイントの実装
  • ファイル添付対応: 画像ファイルを添付して分析可能
  • 議論機能: !debate コマンドで複数視点の議論を生成
  • メッセージ返信: スレッドへの返信と対話履歴の管理
  • リアクション機能: メッセージへのリアクション追加

🌐 Browser API サービス

新しい browser-api サービスを docker-compose に追加し、セキュアなクロスオリジンアクセスと強化されたエラーハンドリングを実現しました。

🛠️ Claude Code Skills

/agentic-vision-gemini スキルで高度な画像分析をコマンド一つで実行可能になりました。CLAUDE.md を含むプロジェクト設定も追加されています。

技術的な詳細

バグ修正

  • セキュリティ強化: CORS設定と環境変数検証の改善
  • コード品質: 玲子姐さんと美咲先輩によるレビュー反映
  • Dockerfile 改善: cc-api に curl、google-genai を追加
  • ハンドラー修正: スレッド取得を fetch_channel に変更
  • エンドポイントURL修正: Discord スキルの URL を修正

インフラ変更

  • Google API キー: .env.exampleGOOGLE_API_KEY を追加
  • Docker ボリューム: ワークスペースとメディアディレクトリの設定を更新
  • Gitignore: browser-api 関連、plans、tmp フォルダを追加
  • テスト構成: テストスイートを追加・再構成
  • cinderella ユーザー: セキュリティのための専用ユーザーとsudo権限を設定

ドキュメント

  • Agentic Vision README: APIリファレンスとユースケースを更新
  • Browser API README: セットアップ手順を追加
  • Discord Bot ドキュメント: 返信機能と議論機能のドキュメント追加
  • テスト README: パスを最新化
  • 日本語README: 言語切り替えバッジを追加

クイックスタート

# 1. Google API Key を設定
cp .env.example .env
# .env を編集: GOOGLE_API_KEY=your_key_here

# 2. Docker で起動
docker compose up -d

# 3. Agentic Vision を実行
curl -X POST http://127.0.0.1:8081/v1/agentic-vision/analyze \
  -H "Content-Type: application/json" \
  -d '{"image_url": "https://example.com/image.jpg", "prompt": "この画像を詳細に説明して"}'

Discord Bot の使用方法

# 画像を添付してメンション
@Cinderella この画像を分析して

# 議論を開始
!debate テーマ: AIの倫理について

まとめ

Cinderella v0.2.0 は、Agentic Vision の導入により、単なる画像分析ツールから真の視覚的エージェントへの進化を表しています。画像を「見る」だけでなく「理解」し、「考え」「行動」する新しい時代の幕開けです。

項目 改善内容 メリット
Agentic Vision Gemini 3 Flash対応 自律的な画像分析が可能に
Discord Bot ファイル添付・議論機能 対話型AI体験が向上
Browser API 新しいサービス追加 クロスオリジンアクセスが強化
Skills Claude Code対応 コマンド一つで高度な分析が可能

📚 参考リンク


"Vision is the art of seeing what is invisible to others" — Jonathan Swift

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?