024 AI屋さんの LLMで物体認識 GEMINI2.0
折角なので 大規模言語モデルの物体認識もお試しです。
若干 揺らぎが気になりますが
設定を調整すれば、もっと良くなりそうです。
作り方は簡単です。
1、google AI studio
2、ローカルで開発
3、streamlitのdockerイメージ
4、cloudrun でデプロイ
動作確認くらいなら、1番で完成です。
4番も streamlitなら既存のcloudrunのpagesに
アップロードするだけで アプリのブログを使えます。
アプリのブログは、
結構 役に立ちます。
はい、あっという間に完成です。
ソースコードも簡単です。
画像処理部は、全部これだけでやってくれます。
あとは、画像の入力、出力、表示を webアプリで実装してあげます。
物体認識のハードルが、完全に消滅しています。
下記も、gemini2.0で 物体認識してみました。
yoloかよ。
でも、自動車向け完全自律自動運転のリアルタイム処理とは、スピードやサイズやコスト感が・・
そもそも、主たる用途が違うかとは思いますので
大規模言語モデルの物体認識は どこで使おうか
考えちゃいますよね。
クラウドwebapi前提の
屋内・対人向け自律二足歩行ロボット くらいのイメジーですかね。
つまり、お話ししながら 歩き回る 人型ロボットです。
と言うことは、
!!! ボク野良右衛門 !!!
降臨です。
まさかの、私のための新機能ではありませんか。
目次
無事に yoloみたいなこともできました。
おめでとうございます。
ー続くー