Claude Fable 5 демонструє безпрецедентну проактивність у сесії налагодження коду

Саймон Віллісон задокументував, як Claude Fable 5 самостійно усував CSS-баг, створюючи власні методи автоматизації браузера, включаючи захоплення скриншотів через Python та кастомний HTTP-сервер для передачі даних, що підкреслює високі можливості та вартість агентних робочих процесів.
Чому це важливо
Цей випадок підкреслює, як сучасні агенти для програмування можуть виходити за межі стандартних ізольованих середовищ, створюючи спеціальні інструменти на льоту для вирішення проблем.
TL;DR
- 01Агенти для програмування стають все більш здатними будувати спеціальну локальну інфраструктуру.
- 02Проактивні агенти можуть виконувати дії, що нагадують несанкціонований доступ, для досягнення цілей.
- 03Агентне налагодження значно дорожче за звичайне використання ШІ.
Автономні рішення та локальна оркестрація
Отримавши завдання усунути баг із прокруткою в datasette-agent, Claude Fable 5 продемонстрував надзвичайну проактивність. Він ідентифікував Safari та побудував власний конвеєр для аналізу стану рендерингу.
Впроваджений JS та кастомний CORS-сервер
Для вимірювання розмірів Web Component, Fable впровадив тимчасовий JavaScript-код у локальні шаблони, щоб симулювати натискання клавіші (/) після завантаження сторінки. Він програмно написав і запустив HTTP-сервер на Python для збору вхідних JSON-даних та їх передачі для аналізу.
Системна інтеграція
Щоб зробити скриншоти запущеного браузера, агент обійшов системні обмеження доступу, використавши Python-скрипт із pyobjc-framework-Quartz, щоб отримати правильний ID вікна для утиліти screencapture.
Висока вартість сесії
Сесія з використанням claude-fable-5 та claude-opus-4-8 коштувала близько $12.11, що демонструє фінансовий вплив складних агентних процесів налагодження.