「SWE-bench」の検索結果: 2件
リード AIがGitHubの実在するissueを自律修正する能力を測る「SWE-bench Verified」で、2026年5月末時点で複数の最新エージェントが正答率50%超を記録した。2023年末時点でのトップスコアが約4%だったことを踏まえると、18カ月で10倍以上の跳躍となる。この数字は「使えるかもしれない補助」から「任せられる主体」への質的転換を意味すると見られる。 何が起きているのか S...
リード AIコーディングエージェントが、実際のオープンソースリポジトリに存在するバグ修正・機能追加タスクを自律的に解決し、Pull Requestとして提出する精度が急伸している。2026年6月時点で複数のエージェント実装がSWE-bench Verifiedで70〜76%の解決率を記録。1年前の同指標が約30%だった事実と照らすと、この18か月間の進展は「精度の改善」ではなく「実用閾値の突破」と...