0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Midnight AI Groove 26-04-27

0
Posted at

DJレン:
深夜0時を回りました。ようこそ 「Midnight AI Groove」 へ。今夜のテーマは、AINewsの “not much happened today”――いやいや、タイトルは静かでも中身は全然静かじゃないっていう一日だね。

DJミオ:
ほんとそれ。表向きは「今日はあんまり何も起きてない」なのに、実際は OpenAIの流通戦略の変化、GPT-5.5の評価、Copilot課金、Xiaomiの大規模OSSモデル、Kimi、マルチエージェント、TPU、KVキャッシュ最適化、Redditのローカル推論祭り まで、かなり密度高めでした。

DJレン:
じゃあ今夜も、Twitter、Reddit、開発者まわり、研究・インフラまで、過不足なくグルーヴしていこう。


1. AI Twitter Recap

OpenAIとMicrosoftの提携見直し、クロスクラウド化へ

DJレン:
まず大きかったのがここ。OpenAIがMicrosoftとの提携条件を更新したって話。Sam Altmanによると、Microsoftは引き続き主要クラウドだけど、OpenAIは今後あらゆるクラウドで製品提供できるようになる。加えて、製品・モデル関連のコミットは2032年まで、レベニューシェアは2030年まで続く。

DJミオ:
この含意がすぐに話題になってましたね。コミュニティの解釈としては、OpenAIがGoogle TPU、AWS Trainium、Bedrockみたいな他社基盤でも展開できる可能性が明確化したと。さらに、MicrosoftのOpenAI IPライセンスが非独占化されたという見方も強かった。

DJレン:
で、それを補強する形で、AmazonのAndy Jassyが「OpenAIモデルが数週間以内にAWS Bedrockへ来る」と確認。これはかなり象徴的だよね。

DJミオ:
あとSimon Willisonが指摘していたのが、新しい文言からすると、以前よく話題になっていた“AGI条項”は実質的に消えたように見えるって点。ここは契約と事業自由度の両面で大きいです。


GPT-5.5:広範な改善、でも全方位最強ではない

DJミオ:
次はGPT-5.5。全体としてはアップグレードと受け止められてるけど、一律に他モデルを圧倒しているわけではない、という評価が目立ちました。

DJレン:
具体的には、コミュニティ評価で WeirdMLの no-thinking モードが67.1%。前世代の GPT-5.4の57.4%から上昇してる。でも、Opus 4.7 no-thinking の76.4%には届かず、しかもOpusの方が少ないトークンで済むという比較も出てた。

DJミオ:
LMSYS Arenaも面白くて、GPT-5.5は Code Arena 9位、Document 6位、Text 7位、Math 3位、Search 2位、Vision 5位、Expert Arena 5位
つまり、かなり広く強いけど、全部門で王者ってわけではない

DJレン:
Arena側は補足も出していて、今の評価はmedium/high reasoning中心で、xHigh reasoningはまだ未評価。だから今後また見え方は変わるかもしれない。

DJミオ:
実務面では、難しいコーディング、たとえばGPUカーネルみたいなタスクで良い感触という声もありました。一方で、no-thinkingモードで compressed CoT leakage、つまり圧縮された思考痕跡っぽいものが漏れる、あるいは出力が崩れるという報告もあって、安定性には議論が残る感じです。


開発者向け経済性:Copilot従量課金、Codex倍率、Symphony公開

DJレン:
次はお金の話。GitHub Copilotが6月1日から usage-based billing、従量課金へ移行。これはエージェント系ワークフローが、従来の補完よりずっと長く実行されてコストを食うことの表れだね。

DJミオ:
OpenAI周辺でもその流れが見えていて、Codexの利用倍率が共有されてました。
たとえば GPT-5.4 fast = 2x、GPT-5.5 fast = 2.5x。一方、5.4-mini や GPT-5.3-Codex はかなり安い

DJレン:
Sam Altmanはそれでも**「Codexが20ドルならかなり価値が高い」**という立場。まあ、使い方次第では全然元が取れるってことなんだろうね。

DJミオ:
加えて、OpenAIがSymphonyをオープンソース化。これは issue tracker と Codex エージェントをつないで、"open issue → agent → PR → human review" まで流すオーケストレーション層。
エージェント単体じゃなくて、開発フロー全体に組み込む道具として出してきたのがポイントです。


2. Xiaomi MiMo-V2.5、Kimi K2.6、中国勢のオープン重視トレンド

Xiaomi MiMo-V2.5:MITライセンス、1Mコンテキスト

DJレン:
今日のオープンモデル界隈で一番大きかったのは、たぶんXiaomiのMiMo-V2.5系
MiMo-V2.5-Pro と MiMo-V2.5 を MITライセンスで公開、しかも どちらも1Mトークンコンテキスト

DJミオ:
ポジショニングも分かれていて、Proは複雑なエージェント/コーディング向け、小さい方の MiMo-V2.5 はネイティブなオムニモーダルエージェントとして打ち出されてます。

DJレン:
技術的なまとめも結構出ていて、MiMo-V2.5-Pro は総計約1T、アクティブ42B、FP8で27Tトークン学習
一方、MiMo-V2.5 は総計310B、アクティブ15B、48Tトークン学習。かなり攻めてる。

DJミオ:
構造面では、interleaved SWA/global attention をかなり積極的に使っていて、shared expertを持たないという話も出てましたね。長コンテキストと効率を両立したい設計思想が見えます。

DJレン:
さらにXiaomiは、ビルダー向けに100T token grantまで発表。モデル公開だけじゃなくて、使わせるところまで設計してる。

DJミオ:
しかも、vLLM と SGLang/vLLM がDay-0で推論サポート。こういう立ち上がりの速さも、今のオープンモデル競争らしいところです。


Kimi K2.6:存在感と実運用の強さ

DJミオ:
続いてKimi K2.6。Moonshotによると、OpenRouterの週間リーダーボードで1位
mindshare、つまり「今みんな何を使って話題にしてるか」でかなり強いです。

DJレン:
二次報道では、コーディングと長期ホライズンのエージェント向けとして評価されていて、
最大300並列サブエージェント、4000 coordinated steps までスケールするという話も。

DJミオ:
ただし実務家の感触は割れていて、Hermes上のKimiはDeepSeek V4よりかなり遅いという声がある一方、V4が直せなかったバグをKimiが直したという報告もある。
つまり、速度と品質のトレードオフで好みが分かれるタイプですね。


中国モデル全体の潮流

DJレン:
全体傾向としては、中国ラボが open-ish で agent-oriented、long-context なシステムをかなり積極展開してるという見方が強かった。

DJミオ:
名前が挙がっていたのは Qwen 3.6 Flash、DeepSeek V4/Flash、GLM-5.1の利用延長、XiaomiのMIT公開
面白いのは、大きいモデルより小さくて安い派生版の方が、実用的なエージェントベンチで強いことがある、という繰り返し出てくるテーマです。


3. Agent Runtimes、オーケストレーション、ローカルファースト

Sakana Conductor:AIがAIを管理する

DJレン:
今日のマルチエージェント文脈では、SakanaのConductorが目立ってました。
これは 7BモデルをRLで訓練して、フロンティアモデル群を自然言語でオーケストレーションするというもの。

DJミオ:
つまり、Conductor自身が全部解くんじゃなくて、どのエージェントを呼ぶか、どのサブタスクを渡すか、どの文脈を見せるかを動的に決める。
その結果、**LiveCodeBench 83.9%、GPQA-Diamond 87.5%**で、プール内の単独ワーカーを上回ったとされてます。

DJレン:
“AI managing AI”、しかも再帰的な自己選択が test-time scaling の新しい軸だ、という指摘も印象的だった。


ローカル/ハイブリッドエージェントの進化

DJミオ:
ローカル系も良い感じでした。
Pi agent + Gemma 4 26B A4B を LM Studio / Ollama / llama.cpp でローカル実行した例が共有されていて、かなり実用に寄ってきてる。

DJレン:
Google Gemmaチームも、Gemma 4 + WebGPUで100%ローカルのブラウザ常駐エージェントをデモ。
閲覧履歴、タブ管理、ページ要約みたいなブラウザ操作を、ネイティブのツールコールで扱う。

DJミオ:
そしてCognitionはDevin for Terminalを投入。
最初はローカルシェルで働いて、必要に応じて後からクラウドへハンドオフできる
これ、完全クラウド一択じゃなく、ローカルとクラウドの境界が柔らかくなる流れですよね。


エージェント開発体験の改善

DJレン:
Hermesも勢いがあって、Tekniumによると、Hermes AgentのリポジトリがClaude Codeを超えたらしい。さらに、vision対応モデルではネイティブビジョンがデフォルトになった。

DJミオ:
エコシステム全体でも細かい進化が多いです。
Cline Kanban はタスクカードごとに別エージェント/別モデルを割り当て可能に。
Future AGI は自己改善エージェント向けの eval/optimization スタックをOSS化
それからMCPについては、何でもかんでもサーバーを接続するより、明示的な @mention ロードか、サブエージェント単位のツール割当が良いという意見もありました。


4. 推論インフラ、Attention/KV、システム設計

Google TPU v8:訓練用8tと推論用8iに分割

DJミオ:
インフラ面では、GoogleがTPU v8を訓練用の8tと推論用の8iに分けたのがかなり大きいシグナルでした。

DJレン:
発表では、学習が約2.8倍高速化、推論性能/ドルで前世代比80%改善
で、重要なのは、Googleが初めてカスタムシリコンをワークロード別に分けたって点。

DJミオ:
しかも、OpenAI、Anthropic、MetaがTPU容量を購入しているという報道もあって、TPUがGoogle内製専用っぽい位置から、より本格的な外販計算資源になってきてる感じがあります。


DeepSeek V4 のインフラ対応が進む

DJレン:
vLLMでDeepSeek V4 baseのサポートが進行中
ここでは、FP4の instruct と FP8の base を区別するために expert_dtype 設定が必要という話が出てた。

DJミオ:
あと vLLM 0.20.0 のハイライトには、

  • DeepSeek V4対応
  • FA4をデフォルトMLA prefillに採用
  • TurboQuant 2-bit KV
  • Blackwell向けのDeepSeek専用 MegaMoEパス
    が含まれていました。
    かなりDeepSeek対応が厚くなってます。

KVキャッシュ最適化が熱い

DJミオ:
長コンテキスト時代の本丸、KVキャッシュ最適化も激しく議論されてました。

DJレン:
整理としては、長文脈ボトルネックに対する主要レバーは3つ。

  1. local/sliding attention
  2. interleaved local-global attention
  3. global layerごとのKVを小さくする工夫、つまり GQA/MLA/KV tying/quantization

DJミオ:
実装面では、vLLMとRed Hat/AWSがFP8 KV-cacheの深掘りを公開。
特に FA3のtwo-level accumulationの修正で、128k needle-in-a-haystack が13%から89%に改善しつつ、FP8デコード高速化は維持というのが印象的でした。

DJレン:
一方で、DeepSeek V4のKVトレードオフについては批判的な議論もあって、HiSparseみたいなオフロード重視方式と比べてどうなのか、という比較が続いてる。


5. ベンチマーク、評価法、研究の方向性

Open-world evaluation へ

DJレン:
評価法については、オープンワールド評価の必要性が強く語られてた。

DJミオ:
今のエージェント系ベンチって、どうしても自動採点しやすいタスクに過剰適合しがちなんですよね。
でも本当に重要なのは、不確実で、外界依存で、完全検証できない仕事
そこに対して、継続学習、メモリストア、適応的データシステムみたいな議論もつながってました。


コスト意識のあるエージェント評価

DJミオ:
それと非常に現実的なのが、コスト込みでエージェントを評価しようという流れ。
dair.aiが紹介してた研究では、SWE-bench Verified上のコーディングエージェントは、普通のチャットやコード推論より約1000倍トークンを消費しうる

DJレン:
しかも、同じタスクでも実行ごとに30倍くらい使用量がばらつくし、お金を多く使えば単調に精度が上がるわけでもない
Copilotの従量課金化とも見事につながる話だね。


新ベンチマークとドメイン特化評価

DJレン:
新しい評価セットもいくつか。
ParseBenchはLlamaIndexによるもので、検証済み企業文書2000ページを使ってパーシングエージェントを評価する。

DJミオ:
AgentIRも面白い。
研究エージェント向けの検索を、クエリだけでなく reasoning trace も埋め込む形に再定義していて、
AgentIR-4B が BrowseComp-Plus で68%、これはより大きい従来型埋め込みモデルの52%を上回る

DJレン:
あと、Opus 4.7がGSOで42.2%リードとか、WeirdML / ALE-Bench / PencilPuzzleBench の話もあったけど、今日のより強い流れは、最終正答率だけじゃなく、ランタイムコスト、検索品質、オープンワールド性も測る方向にコミュニティが移ってることだね。


エンゲージメント上位ツイート

DJミオ:
トップツイートをざっと並べると、

  • OpenAI–Microsoft提携リセット
  • OpenAIのAWS Bedrock登場確認
  • GitHub Copilotの従量課金化
  • Xiaomi MiMo-V2.5のMIT公開と1M context
  • OpenAI DevsのSymphony公開
  • Gemmaの完全ローカルWebGPUブラウザエージェント
    この辺が高エンゲージメントでした。

6. AI Reddit Recap:/r/LocalLlama と /r/localLLM

Qwen3.6まわりの性能・最適化

Luce DFlash:Qwen3.6-27Bを単一RTX 3090で最大約2倍高速化

DJレン:
Redditでは、Qwen3.6関連がかなり熱かった。
まず Luce DFlash。これは Qwen3.6-27B向けの speculative decoding 実装で、単一RTX 3090上、ggmlベースのC++/CUDAスタックで動く。

DJミオ:
HumanEval、GSM8K、Math500 で自己回帰デコード比最大1.98倍のスループット
しかも再学習不要で、compressed KV cache と sliding-window flash attentionを使い、OpenAI互換HTTP endpointとしても提供できる。

DJレン:
ただ制約もあって、CUDA限定、マルチGPU非対応
コメント欄では、量子化で速度は出るけど、コーディングやツールコールでは精度劣化が痛い場合があるという指摘もあった。

DJミオ:
あと、Docker化できないかという需要もあったし、ローカル推論の実用性が一段上がると期待されてました。


古いGPUを足してVRAMを増やす

DJミオ:
次に面白かったのが、16GB VRAM勢は古いGPUを挿せという投稿。
メインの 5070Ti 16GB に 2060 6GB を足して 22GB VRAM 相当にし、30B級密モデルをかなり効率よく回すという話です。

DJレン:
llama-serverVulkan1,Vulkan2 を有効化し、no-mmap でRAMに逃がさずGPUに載せる
その結果、128k context で prompt処理186 tok/s、生成19 tok/s
単カードだと 4 tok/sだったというから、かなり改善してる。

DJミオ:
でもコメントでは、弱いGPUが強いGPUの足を引っ張るケースも報告されてました。
たとえば 3090 Ti + 2070 だと、分散した方が30 t/sから20 t/sへ落ちたとか。
要するに、VRAM追加は魔法じゃない、帯域とバランスが重要

DJレン:
あと、GTX 1650 4GB + 62GB RAM でQwen3.6-35B-A3Bを回す工夫なんかも共有されていて、
--cpu-moe, --mlock, 各種キャッシュ設定など、現代の潤沢な計算資源前提へのアンチテーゼみたいな最適化精神が良かったね。


35B-A3Bより27Bの方が実務で良いことも

DJレン:
Qwen3.6 35B-A3B から 27B に切り替えたらコーディング中に明らかに良くなった」という投稿も人気でした。

DJミオ:
ポイントは、VRAM制約下では、MoEよりdenseモデルの方が圧縮に強いことがある、という実務的知見。
27BのIQ3_Mでも、35B-A3Bが見つけられなかった厄介なバグを見つけたという話があって、かなり説得力ある。

DJレン:
速度面でも、27Bは40 tok/sで安定、対して 35B-A3Bは速度が揺れやすい
コメントでも、16〜24GB VRAM帯なら27Bは信頼できるローカル基準モデルという評価が目立ってた。

DJミオ:
比較としては、27B IQ4_XSで196K context・48 tok/s
35B-A3B Q3_K_Sで最大149 tok/sだが contextは約65K、みたいな話も出ていて、
結局 速度・文脈長・品質の三角形をどう選ぶかですね。


RTX 5090でQwen3.6-27B-INT4が256k context・100 tps超

DJミオ:
さらにモンスター級の投稿。
Qwen3.6-27B-INT4 が単一RTX 5090 + vLLM 0.19 で 256k context、105〜108 tps

DJレン:
構成は auto_round量子化、KV cacheに fp8_e4m3、flashinfer attention、MTP speculative decoding で3 speculative tokens
あと Turboquant 3-bit NC KV CacheでKV状態を圧縮し、24GB VRAMで125K contextまで収める話も出てた。

DJミオ:
さらに細かく言うと、n=3のMTP speculative decoding が約3倍のスループット倍率を生んでいて、
mean acceptance length 2.65〜3.46、acceptance rate 55〜82%
Cudagraph PIECEWISE modeが、マルチGPU環境での stale MTP state 由来の繰り返しループも抑えるという話。

DJレン:
実測では、物語系120〜124 TPS、コード系156〜159 TPS、コンテキスト258,048 tokens、GPU使用率93%、消費電力400〜426W
ローカル推論もついにここまで来たか、という感じ。


Claude CodeでQwen 3.6を使う苦労

DJレン:
一方で「Qwen 3.6をClaude Codeで動かしたい」という投稿では、現実の厳しさも見えた。

DJミオ:
RTX 4070 8GB + 32GB RAMで、Qwen 3.6 27BやGemma 4 26Bは遅い、ループする
小型モデルの Qwen 2.5-coder 7B や Gemma 4 e4b ではコーディング力不足

DJレン:
そこで提案されてたのが、Qwen3.6-35B-A3B
MoEだから、3B部分をGPU、残りをRAMに逃がして2〜3倍高速化できる可能性がある。
ただ、複雑タスクや多ツール呼び出しでは、大きな初期プロンプトが20tps前後で重く、3〜5分かかってタイムアウトすることもある。

DJミオ:
つまり、ローカルで本格的にエージェント運用するなら48GB以上のVRAMが欲しいという、かなり身も蓋もない結論にもなってました。


新モデル・新ベンチ

Microsoft TRELLIS.2:4B画像→3Dモデル

DJミオ:
新モデルでは、MicrosoftのTRELLIS.2
4Bパラメータの image-to-3D モデルで、最大1536³解像度のPBRテクスチャ付き3Dアセットを生成。
ベースは native 3D VAE と 16× spatial compression

DJレン:
コードはGitHubで公開、Hugging Faceにライブデモあり。
ただし ROCm/AMD対応は微妙で、文書上は基本CUDA前提。
7800XTでsegfaultしたという報告もあって、24GB級NVIDIAでの検証中心みたいだね。


AMD Hipfire:AMD GPU向け推論エンジン

DJレン:
あと AMD Hipfire も注目。AMD公式ではないけど、AMD GPU向けに最適化された推論エンジンで、mq4量子化を使う。

DJミオ:
特に RDNA3で大きく高速化
RX 7900 XTX で2.86倍高速化という報告もあった。
ただし、AR decode は速いが prefill は llama.cppに劣ることがあり、構造化生成やコード生成で特に効くみたいです。

DJレン:
コメントでは、GGUFみたいな業界標準量子化に寄せてほしいという声も。
やっぱり標準化は強い。


7. Less Technical AI Subreddit Recap

Claude と GPT Image 2 の話題

ChatGPT Image 2 の写実性

DJミオ:
一般向け寄りのサブレでは、ChatGPT Image 2 の写実性が話題。
同じ「バングラデシュのダッカにあるBugatti Chiron」というプロンプトで、**ChatGPT Image 2の絵は“本物の写真みたい”**と評価されてました。

DJレン:
ただし弱点もあって、看板の文字がベンガル語とヒンディー語の混ざったような怪しい表記になっていた。
写実性は高いけど、ローカルな文字表現の正確さはまだ難しい


StanfordのAI設計バクテリオファージ

DJレン:
かなり重い話題として、Stanford研究者が genome language model にDNA配列を与え、新しいバクテリオファージを大量設計し、16個が実際に機能したという件も大きく取り上げられた。

DJミオ:
しかも、そのうち1つは地球上の既知生物に存在しないタンパク質を使っていた
これは医療応用、たとえば薬剤耐性菌を狙う新しいファージ療法としては希望がある一方で、
悪用可能性というデュアルユースの懸念も非常に大きい。

DJレン:
コメントでは、AIバイオインフォマティクスは核技術並みに重要で危険という比喩まで出てた。
あと補足として、ここでいう“language model”は一般LLMではなく genome language modelだ、という説明もあったね。


Claude 4.7 が125語の未公開文から記者を特定

DJミオ:
もう一つ面白かったのが、Claude 4.7 が未公開の125語の文章から、その書き手が誰かを当てたという実験。
Kelsey Piperが、ログアウト、API利用、友人のPC使用などで、アカウントやブラウザやIPベースの特定を排除した上で試した

DJレン:
結果、Claude 4.7は書き手の“文体”を指紋のように捉えた可能性がある。
ChatGPTやGeminiではそこまでできなかった、という比較もあって、読解・特徴抽出能力の高さが注目された。

DJミオ:
一方で、方法論の厳密性に疑問を呈する声も当然あった。
ただ、文体識別は昔から言語学的に成立するという反応も多くて、モデルがそれを高精度にやる時代に入ってるかもしれません。


DeepSeek と Qwen の価格・性能談義

DeepSeekの価格引き下げ

DJレン:
DeepSeek関連では、入力トークンのキャッシュヒット料金を1/10に恒久値下げ
$0.145 → $0.0145
前日の一時的ディスカウントではなく、常設値下げというのがインパクト大。

DJミオ:
これで 1M contextみたいな長文脈用途がかなり使いやすくなるし、
DeepSeek Flash は性能面でもSOTA級という声もあって、価格競争力がかなり強い。


DeepSeek V4 Pro は高いのか?

DJミオ:
別スレでは、DeepSeek V4 Proは高いのかという議論。
比較図では 総コスト $1071 で、Claude Sonnet 4.6の$3959、GPT-5.4の$2851よりはだいぶ安い
ただ、入力$614、reasoning $420で、決して無料感覚ではない。

DJレン:
コメントでは、Mimo v2.5 Proの方がDeepSeek V4 Proより約2.4倍安いという比較もあり、
知能ベンチではMimoが2ポイント上、CodingではDeepSeekがわずかに上みたいな見方。
Mimoはverbosityが低くてコスト効率が良いとも言われてた。

DJミオ:
それから、サブスクは予測不能だからローカルモデル+ハード増強の方が安定投資ではという議論も。
クラウドは便利だけど、料金体系の変化リスクはずっと付きまとう、ということですね。


開発者向けツール・フレームワーク

Ostris AI toolkit でLTX2.3を5090学習

DJレン:
開発者寄りでは、Ostris AI toolkitでLTX2.3をRTX 5090で7時間学習したという投稿が盛り上がってた。

DJミオ:
かなり具体的で、

  • 初期 lora rank 48
  • 第1フェーズ 600 steps
  • gradient accumulation 2
  • 512x512
  • 25 frames/clip
    みたいな設定が共有されてた。

DJレン:
トレーニングは複数フェーズで進めて、differential guidance、learning rate、dataset構成を段階的に調整。
そして何より、正確なプロンプトとtrigger wordが大事という話。

DJミオ:
コメントでは、1秒クリップで似顔・特徴を取れるのかへの驚きや、
3090でサンプリングを切るとVRAM節約&高速化できるという実践知も出てました。
一方で、5090 + 64GB RAMでも失敗した例もあって、設定の繊細さがうかがえます。


8. Discord と AINewsの告知

DJレン:
最後にちょっと運営トピック。
Discordのアクセスがこの日で止まったので、今までの形ではDiscord Recapは終了。
ただし 新しいAINewsを出す予定とのこと。

DJミオ:
今回の号でも、実際 “a quiet day” って書かれてたけど、
見てきた通り、

  • OpenAIのクロスクラウド化と提携再設計
  • GPT-5.5の現実的な位置づけ
  • CopilotやCodexのコスト明示化
  • Xiaomi MiMoとKimiを中心とした中国勢の攻勢
  • ConductorやSymphonyに見えるオーケストレーション時代
  • TPUとKVキャッシュ最適化のインフラ競争
  • Redditにおけるローカル推論の超実践知
  • 評価軸が正答率からコスト・オープンワールド・検索品質へ拡張
    ……と、むしろ水面下の構造変化がすごく見えた日でした。

9. まとめ

DJレン:
今夜のキーワードを一言でまとめるなら、「モデルそのもの」から「どう配るか、どう走らせるか、どう評価するか」へ重心が移っている、かな。

DJミオ:
うん。
性能比較はもちろん続いてるけど、それ以上に、
クラウドの囲い込みが崩れ、課金が従量化され、エージェントはオーケストレーションへ進み、ローカル実装は現実味を増し、評価はコストや現実世界適応へ向かっている
“not much happened”どころか、土台が静かに組み替わっている日だったと思います。

DJレン:
というわけで、今夜の Midnight AI Groove はここまで。
マイクはDJレン。

DJミオ:
DJミオでした。
次の深夜も、AIのノイズの中からちゃんとしたビートを拾っていきましょう。おやすみなさい。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?