Search result of “user:okssusucha”

44 search resultsShowing 1~20 results

Stocked

@okssusucha

2026/06/17

OpenAIが本番130万会話を再生して新モデルの問題行動を出荷前に測る

ベンチマークでスコアが伸びた新モデルを本番に差し替えたら、前のモデルより手を抜くようになった。そんな経験に心当たりがある人は少なくないと思う。原因のひとつははっきりしている。モデルは「これはテス...

Comment0

@okssusucha

2026/06/17

Claude Code 2.1.178の権限ルールはツール引数までマッチできる

これまでClaude Codeの権限ルールは、コマンド文字列とファイルパスしか見ていなかった。Bash(npm run test *) のように「何を実行するか」を文字列で許可・拒否する仕組みで...

Comment0

@okssusucha

2026/06/18

Microsoftの自社モデルMAI 7種、Copilotで使えるコーディングAIの中身

VS CodeのGitHub Copilotでモデル選択を開くと、見慣れないモデルが増えていることに気づいた人がいるかもしれない。MAI-Code-1-Flash。GPTでもClaudeでもGe...

Comment0

@okssusucha

2026/06/12

OpenAIがOna(旧Gitpod)を買収へ。コーディングエージェントの主戦場は実行環境に移った

「ブラウザを開くだけで開発環境が立ち上がる」と一部で熱狂されたGitpodが、Onaと名前を変えた末に、OpenAIに買われることになった。買収合意の発表は2026年6月11日。金額は非公開で、...

Comment0

@okssusucha

2026/06/28

ゼロデイを量産するClaude Mythos 5に、米政府が輸出規制をかけた

OpenBSDのTCPスタックに27年間眠っていたDoS脆弱性がある。誰も気づかないまま四半世紀放置されていたその欠陥を、Anthropicの言語モデルが自力で掘り当てた。FFmpegのH.26...

Comment0

@okssusucha

2026/06/25

エージェントの実行を隔離環境に追い出すOpenAIのSandbox Agents

エージェントにシェルを握らせると、たいてい二つの不安が同時に来る。ひとつは「rm -rf を打たれたら困る」という安全面。もうひとつは「20分かけてパッケージを入れて中間ファイルを作った作業が、...

Comment0

@okssusucha

2026/06/29

下書きを並列で出しても前後関係を壊さないDSparkをDeepSeekが公開

大規模言語モデルの推論が「待たされる」とき、ボトルネックは賢さではなく出力の作り方にある。トークンを1個生成するたびにモデル全体を1回走らせる。長い返答になるほどこの往復が積み上がり、しかも1回...

Comment0

@okssusucha

2026/06/29

エンジニア組織は人を増やすほど伸びない。20人・50人・200人で変わるもの

エンジニア組織は「人を増やす」では伸びない。20人・50人・200人で変わるものエンジニアリング組織を大きくしようとするとき、多くのリーダーは反射的に「採用を増やす」と考える。だが人を足せば足...

Comment0

@okssusucha

2026/06/24

Geminiの既定APIがInteractions APIに、状態をサーバーが持つ設計へ

Gemini のドキュメントからコードをコピーすると、これまでとは違うものが貼り付くようになった。リクエストの形が変わっただけではない。会話の状態を「誰が持つか」という前提そのものが入れ替わって...

Comment0

@okssusucha

2026/06/24

AIで19のOSSを1週間監査、64PRを生んだOpenAI Patch the Planet

フロンティアモデルがソフトウェアの脆弱性を「見つける」のは、もう難しくない。難しいのはその後だ。AIが吐き出した数百件の指摘のうち、本物はどれで、誤検知はどれか。それを仕分ける人間の時間が足りな...

Comment0

@okssusucha

2026/06/27

Claudeエージェントの記憶を再構築するDreams APIを読む

長く動かしているエージェントの memory ファイルを開いて、うんざりしたことはないだろうか。同じ知見が言い回しを変えて三回書いてある。先週の前提と今週の前提が矛盾したまま並んでいる。とっくに...

Comment0

@okssusucha

2026/07/01

Codexが年640TBをSSDに書いていた、原因のTRACEログを追う

手元のSSDが、キー入力していない時間帯まで一定のペースで削られていく。プロセスを追い詰めると、犯人はエディタでもブラウザでもなく、常駐させていたOpenAI Codex CLIのログ機構だった...

Comment0

@okssusucha

2026/06/10

LLMアプリの「静かなデグレ」をCIで検知する llm-canary の使い方

TL;DR プロンプト変更・RAG修正・モデル乗り換えによる振る舞いのデグレは普通のCIでは検知できない llm-canary はYAMLでLLMの振る舞いテストを宣言し、CIをゲートするOSS...

Comment0

@okssusucha

2026/06/12

Claude Fable 5が黙って性能を下げる仕様、Anthropicが2日で撤回

Claude Fable 5が黙って性能を下げる仕様、Anthropicが2日で撤回モデルのシステムカードを隅まで読む人は少ない。でも今回ばかりは、読んだ人が勝った。 6月9日にリリースされた...

Comment0

@okssusucha

2026/06/19

Cloudflare Agents SDK、副作用を承認ゲートで止めて再開する仕組み

エージェントに「GitHubのイシューを作っておいて」と頼んだとする。モデルが暴走して見当違いのイシューを5本立てたら困るので、実際に作る前に人間が一度確認したい。しかも確認の途中でサーバーが再...

Comment0

@okssusucha

2026/06/20

localhostを信頼するAIエージェントをWebページ1枚で乗っ取るAutoJack

開発者のデスクトップで、何の操作もしていないのに calc.exe が立ち上がる。きっかけは、自分が動かしているAIエージェントに「このページを見て」と頼んだことだけ。しかも電卓を起動したのはブ...

Comment0

@okssusucha

2026/06/12

Claude Fable 5のAPIでは「拒否」がエラーではなく正常応答になる

stop_reason: "refusal"。エラーではなくHTTP 200の正常応答として、モデルが回答を断ってくる。Anthropicが6月9日にリリースしたClaude Fable 5のA...

Comment0

@okssusucha

2026/06/16

Apple Foundation ModelsがClaude・Geminiを同じSwift APIで呼べる

Apple Foundation ModelsがClaude・Geminiを同じSwift APIで呼べる WWDC 2026を伝えるニュースの見出しは、ほとんどが「iPhoneでClaudeが...

Comment0

@okssusucha

2026/06/17

MiniMax M3のオープンウェイトが公開、1M文脈を支えるMSAを読む

HuggingFaceの MiniMaxAI/MiniMax-M3 を開くと、まず目を引くのはパラメータ表記だ。総パラメータ約428B、しかしアクティブは約23B。MoEとしては珍しくない比率だ...

Comment0

@okssusucha

2026/06/18

オープンウェイトGLM-5.2、コーディングでGPT-5.5を一部超える

「オープンウェイトがGPT-5.5を超えた」という見出しを今週いくつも見たが、Z.aiが公開した GLM-5.2 を実際に触る側の関心はそこではない。重みがMITライセンスで配られ、しかも宣伝文...

Comment0

44 search resultsShowing 1~20 results

Qiita is a knowledge sharing service for engineers.

You can follow users and tags
You can stock useful information
You can make edit suggestions for articles

Functions that can be used after logging in

Search article