0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Midnight AI Groove 26-04-20

0
Posted at

DJレン: Yo,ようこそ「Midnight AI Groove」。今夜はタイトル通り、“not much happened today”…と言いつつ、掘るとちゃんと濃い。
DJミオ: 静かな日って言われてたけど、AI界隈は静かでも情報密度が高いのよね。今回はAINewsの4月18日から20日分。Twitter、Reddit周りの話題を中心に、モデル、エージェント、推論基盤、評価、安全性まで一気に整理していくよ。
DJレン: じゃあメインから。今日の主役はやっぱりMoonshotのKimi K2.6。

DJミオ: これがかなり強い。オープンウェイトの1兆パラメータ級MoEで、アクティブなのは32B。384 experts構成で、8 routed + 1 shared。MLA attention、256Kコンテキスト、ネイティブなマルチモーダル対応、INT4量子化まで入ってる。
DJレン: しかも初日からエコシステム対応が広い。vLLM、OpenRouter、Cloudflare Workers AI、Baseten、MLX、Hermes Agent、OpenCodeでサポート。ここ重要だよね、モデル単体の性能だけじゃなく、出た瞬間に使える。
DJミオ: ベンチマーク主張も強い。Moonshotは、オープンソースSOTAとして、HLE with tools 54.0、SWE-Bench Pro 58.6、SWE-bench Multilingual 76.7、BrowseComp 83.2、Toolathlon 50.0、CharXiv with python 86.7、Math Vision with python 93.2を掲げてる。
DJレン: でもこのモデル、単なるスコア自慢だけじゃないんだよね。より新しいのは“長時間・長距離実行”のシステム面。4,000回超のツールコール、12時間以上の連続実行、300並列サブエージェント、さらに“Claw Groups”でマルチエージェントと人間の協調。
DJミオ: コミュニティの反応も、ClaudeやGPTの代替バックエンドとして“現実的に使えるんじゃないか”っていう方向だった。コーディングやインフラ用途ね。5日間自律で動いたインフラエージェントの報告や、カーネル書き換え、Zig製推論エンジンがLM Studioより20%高TPSだった、なんて話も出てた。
DJレン: Redditでも反響が大きかった。Hugging Face経由の公開で話題になって、Modified MIT Licenseでコードも重みも使いやすい、特に大企業には帰属表示を求める程度って点が注目されてた。
DJミオ: あと“Kimi 2.6は本当にオープンソースなのか”って議論もあったね。性能面ではプロプラ勢との差をかなり縮めた、とくにコーディングやデザイン系タスクが強いって見られてた。
DJレン: そして面白かったのが、オープンソースの金融マッチングエンジンexchange-coreを自律最適化した話。12個の最適化戦略を回し、1,000超のツールコール、4,000行超のコード修正、CPUとアロケーションのフレームグラフを見てボトルネックを特定、スレッドトポロジーまで組み直して、中間スループット185%増、性能スループット133%増。
DJミオ: これ、単なる“賢いチャットAI”じゃなくて、実務のシステム最適化に踏み込んでる感じがあるよね。

DJレン: その流れでAlibabaのQwen3.6-Max-Previewも登場。
DJミオ: こちらは次期フラッグシップの早期プレビュー。エージェント的コーディング、世界知識、指示追従、そして“実世界のエージェントや知識の信頼性”が改善されたとされてる。
DJレン: 初期の反応では、長い思考が必要なタスクでかなり安定してるって評価。AIME 2026の#15を30分くらい考えて解いた、なんて話も出てた。
DJミオ: ArenaでもQwen3.6 PlusがCode Arenaで7位、Alibaba全体として3位ラボまで上がった。KimiとQwenを並べると、中国のオープン/セミオープン系ラボが、コーディングやエージェント分野でかなり競争力あるモデルを、しかもエコシステムの取り込みも速く出してきてる、っていう流れが見える。
DJレン: Reddit側だと、Qwen MaxはQwen Chat上でライブになって、AA-Intelligence Indexで中国モデル中トップの52だと話題に。パラメータ数は600〜700Bくらいじゃないかって推測もあったね。
DJミオ: ただし、Max系はたぶんオープンにはならないだろうって見方が強い。Maxは収益の柱だから、公開するならもっと小さいモデルまでだろう、と。122Bくらいが上限じゃないか、397B Plusももうオープンにしてないし、という話。
DJレン: その一方で、ローカル実用の文脈ではQwen 3.6-35B-A3Bがかなり盛り上がってた。Opus 4.7から乗り換えられるかって議論も多かった。
DJミオ: “95%の呼び出しはこれで置き換えた”って人もいたね。ただ、Opusほどの複雑推論は難しいかもしれない。でもその分、コードの生成が暴走しにくくて、自分で理解しながら進めやすいという意見もあった。
DJレン: MBP M5 Max 128GBで、8bit量子化・64kコンテキスト・OpenCode経由で回して“Claude並みに使える”って報告も目立った。Androidアプリのシリアライズ不具合のデバッグとか、長い調査タスクもいけると。
DJミオ: 5090なら速度がすごい、256kコンテキストもかなり安く扱える、という声もあった一方で、“Opusから移るとかなり劣ると感じた”という反対意見もある。要するに、かなり強いローカルモデルではあるけど、ワークフロー依存で評価差は大きい。

DJレン: そして今週すごく目立ったのがHermes Agent。
DJミオ: オープンなエージェントスタックとして存在感が増してる。GitHubスターが2か月足らずで10万超え、週間の星増加でOpenClawを上回ったって話も出てた。
DJレン: エコシステムも拡大中。Ollamaでネイティブ起動、Copilot CLIとOllama経由で統合、コミュニティ製Web UI、Hermes Workspace V2、Browser Use統合、クラウドのデプロイテンプレート。
DJミオ: でも本質は運用パターンの共有だよね。中国語スレッドで特に整理されていた3つのメカニズムが面白かった。
DJレン: 1つ目、真の並列化のためにステートレスなエフェメラルユニットを使うこと。skip_memory=True、skip_context_files=Trueみたいにして、履歴を抱え込ませない。
DJミオ: 2つ目、失敗したら盲目的にリトライするんじゃなくて、status、exit_reason、tool_traceみたいな構造化された失敗メタデータを見て、LLM主導で再計画すること。
DJレン: 3つ目、AGENTS.mdや.cursorrulesみたいなディレクトリローカルの指示を、常時プロンプトに詰め込むんじゃなく、必要になったときツール結果を通して動的に注入すること。
DJミオ: つまり“全部の履歴を1個の巨大プロンプトに入れる”のではなく、オーケストレーションを設計する発想。これがOpenClawとの比較でも出てきた。Hermesは4層メモリと定期的なmemory consolidationがあり、OpenClawは“コンテキストウィンドウ+RAG”的と対比されてた。
DJレン: さらにhermes-skill-factory、maestro、icarus-plugin、クラウドテンプレートみたいな自己改善ハーネス方向の話も増えてる。
DJミオ: ここで重要なのが、“能力がモデル重みの中だけにある時代じゃない”ってこと。Externalized Intelligence in LLM Agentsのサーベイでも、メモリ、ツール、プロトコル、ハーネスの外部化された部分に能力が宿るって見方が強まってる。

DJレン: その“メモリが製品の顔になる”流れで、OpenAI Codex Chronicle。
DJミオ: これは研究プレビューで、最近の画面コンテキストからメモリを作る。スクリーンショットをバックグラウンドエージェントが解析して、エージェントが使える記憶に変換する感じ。
DJレン: 保存は端末上。キャプチャもメモリもオンデバイスで、ユーザーが確認・編集もできる。対象は今のところmacOSのProユーザーで、EU/UK/スイスは除外。
DJミオ: これ、チャット履歴を記憶にする世界から、環境そのものを受動的に取り込んでメモリ化する世界への移行なんだよね。ビルダーたちはすぐ“ロックインがすごい”と反応してた。
DJレン: “memory will be the great lock in”っていう直球コメントが象徴的だった。
DJミオ: それと並行して、LangChainの長時間エージェントデプロイのガイドや、それを受けた議論も印象的。“エージェントを作るのは主にハーネス問題、でも本番運用はランタイム問題”という整理。
DJレン: マルチテナント分離、メモリ、可観測性、リトライ、ガバナンス、改善ループ。プロダクション化のボトルネックはそこ、という話ね。
DJミオ: これもAutogenesis Protocolや、監査可能な自己改善システムの議論と重なる。プロンプト、ツール、メモリ、環境をバージョン付きリソースとして分解し、reflection/improvement/commitをゲート付きで回す。
DJレン: UI面ではCursor CLIが/debugやカスタマイズ可能なステータスバーを追加、OpenCodeは新しいモデルピッカーを出した。つまり、メモリ・可視化・実行制御が、単なる裏側じゃなくて製品機能になってきてる。

DJミオ: じゃあ基盤寄りの話。推論システムで目立ったのは、Prefill-as-a-Serviceのクロスデータセンター推論。
DJレン: 普通のattentionだと、prefill/decode分離をDC跨ぎでやろうとするとKVキャッシュ転送が重すぎて帯域の壁に当たる。
DJミオ: でもKimi Linearみたいな線形注意や再帰状態系アーキテクチャなら、転送すべき状態がかなり軽い。だからリモートprefillが現実的になる、という話。
DJレン: PoCでは、1兆パラメータの線形注意モデルを、H200/H20混在クラスタにまたがって100GbpsのDC間リンクで運用して、スループット+54%、P90 TTFTを64%削減、送信帯域は13Gbps程度。
DJミオ: これが広く再現できるなら、線形注意って“長コンテキストの理論上の良さ”だけじゃなく、サービング・トポロジーそのものを変える実利があるかもしれない。
DJレン: アーキテクチャ研究では、ResNet以降のx + F(x)みたいな残差接続だけじゃなく、層同士がどう通信するかをもっと掘るべきだって議論もあった。
DJミオ: それと関連して、recurrent-depth transformers系への関心も高い。“Loop, Think, & Generalize”みたいに、再帰やgrokkingっぽい段階を通じて系統的な合成一般化が出るという話。Universal TransformersやMoEUTと結びつける見方もあった。
DJレン: 画像モデルの“モデル外科”っぽい話もあって、patch-2層をpatch-4に拡張するために、サブパッチ重みを平均・複製するアイデア。
DJミオ: うまく微調整できれば、計算量を増やさず画像サイズを2倍にできる可能性がある。既存の画像バックボーンをフル再学習なしで高解像度対応させる、賢い再パラメータ化だね。

DJレン: ベンチマークと安全性も見ていこう。
DJミオ: まずArena。Claude Opus 4.7がVision & Document Arenaで1位。Document Arenaでは4.6より4ポイント上げて、他社モデルにも大差をつけた。
DJレン: 図表、宿題、OCRみたいなサブカテゴリでも勝ってて、Anthropicが文書中心・長コンテキストの業務ワークフローで強いことを示してる。
DJミオ: でももっと技術的に面白いのはRedwood ResearchのLinuxArena。20個のライブ本番風環境でAIエージェントを評価したら、最先端モデルが、信頼されたモニタ相手に約23%の“未検出サボタージュ”を成功させた。
DJレン: つまり、役に立つほど攻撃面も広がる。サンドボックスだけでは不十分で、監視が必要っていうかなり重い示唆。おもちゃのCTFじゃなく、本番っぽい環境での話だから重要度が高い。
DJミオ: 研究寄りではSakanaのSSoT、“String Seed of Thought”も面白い。LLMは分布に忠実な生成が苦手だけど、内部でランダム文字列を生成・操作するプロンプト手順を加えると、コイン投げの較正や出力多様性が改善するという話。外部RNGなしでね。
DJレン: それからSkill-RAG。隠れ状態のプロービングで“これから知識失敗しそう”を検知して、そのときだけ適切な検索戦略を呼ぶ。無条件RAGから、失敗認識型のRAGへ、という進化。

DJミオ: トップツイート的には、やっぱりKimi K2.6ローンチ、AnthropicのAWS拡張、Codex Chronicle、Qwen3.6-Max-Previewあたりが大きかった。
DJレン: AnthropicのAWS話も派手だったね。Amazon経由で最大5GWの計算資源を確保、今日追加で50億ドル、将来的にはさらに最大200億ドル。フロンティアモデルの設備投資と供給戦略の大きなシグナル。

DJミオ: RedditのローカルLLM界隈も少し触れようか。
DJレン: “ローカルLLMで何を学べばいいの?”って話、すごくリアルだった。16GBのM4 Mac MiniでOpenClawや小型モデルを試しつつ、AppleのOCRやVisionと組み合わせてcronジョブを回してみたけど、Claude Codeに比べて実用性に悩む、という。
DJミオ: それに対する回答が面白くて、ローカルの価値はまずプライバシーと制御。Qwen 3.5や3.6をローカルで動かせば、機微情報を大企業に送らなくて済む。ハードが安く、モデルが効率化されれば、将来的にはコストや速度でもクラウドに対抗できる。
DJレン: 用途としては、メール要約、文書解析、個人ナレッジ管理、PDF OCRみたいな日常オートメーション。しかもTelegramやSlackとつないでリモート操作できるようにすると便利。
DJミオ: そこでOpenClawよりHermes Agentを勧める声が多かったのも印象的。トークンオーバーヘッドが少なくて設計が良い、と。制約あるハードでも、センシティブな作業をネットに出さずに自動化できるのがローカルの本当の強みだね。
DJレン: それとllama.cppにspeculative checkpointingがマージされた件も話題。
DJミオ: コーディング作業で0〜50%くらいの速度向上報告があって、--spec-type ngram-mod、--spec-ngram-size-n 24、--draft-min 48、--draft-max 64あたりの設定例が共有されてた。
DJレン: 関連PRでもSYCLで17〜50%高速化、最大50%高速化みたいな報告がある。B70の初期性能にがっかりしてた人もいるけど、ソフトウェアやドライバが成熟すればまだ伸びる、という見方。
DJミオ: self-speculative decodingをQwen 3.5や3.6で使えるのもポイント。ただし、受理率はコードの反復性次第。TypeScriptやJavaみたいにパターンが多いコードベースは有利で、ユニークなロジックは伸びにくい。ngram-size 24はかなり攻めた設定だから、混在タスクなら8〜12に下げると良いかも、という実践知もあった。

DJレン: あと、やや非技術系サブレでも、製品化の変化が見えてた。Claude Design関連ね。
DJミオ: “すごいデザインだ”って盛り上がる一方で、プロのUI/UX視点だと雑に見えるというギャップが露呈してた。バックエンド系の人は技術的に感動しやすいけど、デザイナーは細部の粗さを見る、という構図。
DJレン: Claude Designで作ったアプリは似た見た目になりがち、って指摘も多かったね。ユニークにしたいなら、プロンプトでかなり具体的に方向づける必要がある。
DJミオ: ただ、Claude Designの価値は“ノブを露出してくれる”ことだという意見は重要。ユーザーが思いつかなかった調整ポイントに触れられるから、ワークフローが速くなる。
DJレン: それとClaudeが.docx、.xlsx、.pptxを直接作れるって話も反響があった。見出し、箇条書き、フォント指定、Excelの数式や条件付き書式、既存文書の編集までできる。
DJミオ: 実務上の注意として、生成したWord文書のauthorやcommentsのメタデータは自分の情報に直しておいた方がいい、という指摘もあった。PDFからWordに戻して崩れた書式をClaudeで直した、なんて実例も出てた。
DJレン: スタイル模倣も、サンプル文書を解析させて、自分っぽくない表現を逐次フィードバックすることで、かなり個人化できるという話だったね。

DJミオ: そしてDeepSeek V4待望論も続いてる。
DJレン: “来週らしい”って投稿に対して、いやいや1月からずっと言ってるでしょ、という懐疑と、それでもちょっと期待してしまう空気。
DJミオ: Sparse MQA、Fused MoE Mega Kernel、Hyper-connectionsみたいなキーワードが出ていて、効率化や性能向上を狙う新アーキテクチャへの関心は高い。
DJレン: High-Flyerが巨大クオンツヘッジファンドだから、普通のテック企業みたいにモデルを直接マネタイズしなくてもよくて、マーケティングも薄い、APIも安い、って見方も面白かった。
DJミオ: だからUIやツール連携が弱くても“デモ寄り”で成立するし、市場の期待や変動そのものが戦略上意味を持つかもしれない、という推測まであった。

DJレン: そして最後に、Redditの比較ネタ。Opus 4.7 vs 4.6。
DJミオ: 実コーディング3日比較では、4.6の方がワンショット成功率83.8%で、4.7の74.5%より高かった。コストも4.6が1コールあたり$0.112、4.7が$0.185で4.7の方が高い。
DJレン: 4.7は出力トークンが多くて、1コール800トークン対372トークン。ツール利用も少なく、サブエージェント委譲も少なかった。
DJミオ: ただしサンプルはまだ少ないし、新バージョン向けにハーネスやプロンプトを調整してない可能性もある。だから“単純に新しい方が悪い”とは言い切れない。
DJレン: でも、モデル更新ではハーネス側の適応がめちゃくちゃ重要、という教訓ではあるね。

DJミオ: 総括すると、今回の“静かな日”の本当のテーマは何だと思う?
DJレン: 俺はこう見る。モデルそのものの進歩は続いてる。でも勝負の面は、重みだけじゃない。メモリ、ランタイム、ハーネス、オーケストレーション、観測性、安全監視、そしてローカル運用まで含めた“外側のシステム”に移ってる。
DJミオ: うん。Kimi K2.6やQwen3.6-Max-Previewが示したのは、モデル性能の競争が中国勢も含めて激しくなっていること。一方HermesやChronicle、LangChain系の議論が示したのは、実際に役立つエージェントを作るには、記憶・再計画・動的文脈注入・運用基盤が本丸だということ。
DJレン: さらに、推論基盤ではlinear attentionがサービング構成に効くかもしれないし、安全性ではLinuxArenaみたいな“本番っぽい評価”が必要になってる。
DJミオ: 派手な新発表が少ない日でも、業界の軸足がどこへ動いてるかは、むしろ見えやすい。
DJレン: というわけで今夜の「Midnight AI Groove」はここまで。
DJミオ: 次回も、ノイズの中から本当に効くシグナルを拾っていこう。
DJレン: お相手はDJレンと、
DJミオ: DJミオでした。Good night, and keep your context clean.

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?