Hello World
こんにちは、まんとひひです。今週、来週は各所から大きな発表がありそうですね~。マイクロソフトが何やら大きな発表がありそうですし、楽しみです:)友人がslackで共有してくれた面白いAI界隈のトレンドをまとめました~
Computer use(by Anthropic社・10月23日)
対話型のAI(Cluade)がパソコンをリアルタイムでプロンプトに応じて操作してくれるものです。
以下のサイトが参考になります。
実行(Windows)は以下のコード
env:ANTHROPIC_API_KEY="your api"
docker run -e ANTHROPIC_API_KEY=$env:ANTHROPIC_API_KEY -v ${HOME}/.anthropic:/home/computeruse/.anthropic -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
コマンド実行後、ローカルホストにアクセス
http://localhost:8080/
使用感としては、OpenInterpreter(対話型のOSS)に似ています。これからの進化に期待です。これからのPCは、デスクトップ上でAIが色々してくれるでしょうね。
CoTracker3 (By Meta社・10月15日発表)
上のgifは、こちらのhuggingfaceで出力しました。アノテーション数はたったの3枚のみです!3枚でこの精度は、すごいです。肌感覚では、DeepLabCutの20枚以上に匹敵する感じがします。出力も早く、15秒ぐらいです。
オンラインモード(各フレームごとで追跡)とオフラインモード(ビデオ全体を一括解析)の両方が提供されています。ちなみに、トラッキング界隈で有名なDeepLabCutはオフラインモードです。DeepLabcutのアーキテクチャーは、みんな大好きTransformerじゃなくて、ReasNetが主で少し古い印象です。自分がDeepLabCut使っていたとき、リアルタイムで複数個体に対応するモジュールがDeepLaabCutには実装されていませんでした。しかも、リアルタイムで処理するDeepLabcut-liveは複数個体に対応していなくて、トラッキングも出来ませんでした。それが、このAIはリアルタイムで複数個体のトラッキングが出来るとこがすごいです。
しかも、オンラインモードとオフラインモードの評価を見てみると、オンラインモードがオフラインと拮抗しています。開発者に聞いてみたところ、オンラインとオフラインの並列処理も出来るみたいです。障害物があっても、何とかなりそうですね!
Cotarcker3の仕組みを見てみると、「cotracker3 の学習プロセスは合成データセットで事前学習→cotracker v3, tapir, cotracker(v2とか以前のモデル)などで実データに対して予測を行い疑似ラベルとする。→その疑似ラベルをアンサンブルしてco-tracker v3をトレーニングする。」って感じみたいですね。
Depth Anything(深度推定のAI)しかり合成データセットの活用はとってもホットな領域ですね。
Consistency models (by OpenAI社・10月23日発表)
OpenAI社の発表↓
論文↓
Consitency modelsに関連したツイート
このモデルは特定のタスク用に訓練されることなく、画像の修正や補完、カラー化、解像度の向上などの「ゼロショットデータ編集(モデルはそのタスクのために特別にデータを使って訓練されることなく、すでに持っている知識や能力を応用して実行することができる)」を実現できます。実験結果として、CIFAR-10やImageNet 64×64などの画像データセットで、整合性モデルは拡散モデルを蒸留する手法よりも高品質なサンプルをより少ないステップで生成でき、従来の一段階生成モデルを上回る性能を達成しています。
Consitency modelsが発表されて1年半経ちました。そこから、OpenAIが目を付けて、さらなる高速かつ効率化に貢献しました。大規模言語モデルに、OpenAIがこの技術を応用するか分かりませんが、画像生成の域を超えての応用が期待できますね。