OpenAIが本番130万会話を再生して新モデルの問題行動を出荷前に測る
ベンチマークでスコアが伸びた新モデルを本番に差し替えたら、前のモデルより手を抜くようになった。そんな経験に心当たりがある人は少なくないと思う。原因のひとつははっきりしている。モデルは「これはテス...
44 search resultsShowing 1~20 results
You need to log-in
ベンチマークでスコアが伸びた新モデルを本番に差し替えたら、前のモデルより手を抜くようになった。そんな経験に心当たりがある人は少なくないと思う。原因のひとつははっきりしている。モデルは「これはテス...
これまでClaude Codeの権限ルールは、コマンド文字列とファイルパスしか見ていなかった。Bash(npm run test *) のように「何を実行するか」を文字列で許可・拒否する仕組みで...
VS CodeのGitHub Copilotでモデル選択を開くと、見慣れないモデルが増えていることに気づいた人がいるかもしれない。MAI-Code-1-Flash。GPTでもClaudeでもGe...
「ブラウザを開くだけで開発環境が立ち上がる」と一部で熱狂されたGitpodが、Onaと名前を変えた末に、OpenAIに買われることになった。買収合意の発表は2026年6月11日。金額は非公開で、...
OpenBSDのTCPスタックに27年間眠っていたDoS脆弱性がある。誰も気づかないまま四半世紀放置されていたその欠陥を、Anthropicの言語モデルが自力で掘り当てた。FFmpegのH.26...
エージェントにシェルを握らせると、たいてい二つの不安が同時に来る。ひとつは「rm -rf を打たれたら困る」という安全面。もうひとつは「20分かけてパッケージを入れて中間ファイルを作った作業が、...
大規模言語モデルの推論が「待たされる」とき、ボトルネックは賢さではなく出力の作り方にある。トークンを1個生成するたびにモデル全体を1回走らせる。長い返答になるほどこの往復が積み上がり、しかも1回...
エンジニア組織は「人を増やす」では伸びない。20人・50人・200人で変わるもの エンジニアリング組織を大きくしようとするとき、多くのリーダーは反射的に「採用を増やす」と考える。だが人を足せば足...
Gemini のドキュメントからコードをコピーすると、これまでとは違うものが貼り付くようになった。リクエストの形が変わっただけではない。会話の状態を「誰が持つか」という前提そのものが入れ替わって...
フロンティアモデルがソフトウェアの脆弱性を「見つける」のは、もう難しくない。難しいのはその後だ。AIが吐き出した数百件の指摘のうち、本物はどれで、誤検知はどれか。それを仕分ける人間の時間が足りな...
長く動かしているエージェントの memory ファイルを開いて、うんざりしたことはないだろうか。同じ知見が言い回しを変えて三回書いてある。先週の前提と今週の前提が矛盾したまま並んでいる。とっくに...
手元のSSDが、キー入力していない時間帯まで一定のペースで削られていく。プロセスを追い詰めると、犯人はエディタでもブラウザでもなく、常駐させていたOpenAI Codex CLIのログ機構だった...
TL;DR プロンプト変更・RAG修正・モデル乗り換えによる振る舞いのデグレは普通のCIでは検知できない llm-canary はYAMLでLLMの振る舞いテストを宣言し、CIをゲートするOSS...
Claude Fable 5が黙って性能を下げる仕様、Anthropicが2日で撤回 モデルのシステムカードを隅まで読む人は少ない。でも今回ばかりは、読んだ人が勝った。 6月9日にリリースされた...
エージェントに「GitHubのイシューを作っておいて」と頼んだとする。モデルが暴走して見当違いのイシューを5本立てたら困るので、実際に作る前に人間が一度確認したい。しかも確認の途中でサーバーが再...
開発者のデスクトップで、何の操作もしていないのに calc.exe が立ち上がる。きっかけは、自分が動かしているAIエージェントに「このページを見て」と頼んだことだけ。しかも電卓を起動したのはブ...
stop_reason: "refusal"。エラーではなくHTTP 200の正常応答として、モデルが回答を断ってくる。Anthropicが6月9日にリリースしたClaude Fable 5のA...
Apple Foundation ModelsがClaude・Geminiを同じSwift APIで呼べる WWDC 2026を伝えるニュースの見出しは、ほとんどが「iPhoneでClaudeが...
HuggingFaceの MiniMaxAI/MiniMax-M3 を開くと、まず目を引くのはパラメータ表記だ。総パラメータ約428B、しかしアクティブは約23B。MoEとしては珍しくない比率だ...
「オープンウェイトがGPT-5.5を超えた」という見出しを今週いくつも見たが、Z.aiが公開した GLM-5.2 を実際に触る側の関心はそこではない。重みがMITライセンスで配られ、しかも宣伝文...
44 search resultsShowing 1~20 results
Qiita is a knowledge sharing service for engineers.