ATB Orchestration Bench: наш відтворюваний бенчмарк агентної розробки
Перевірено: 11 червня 2026 р. · Редактор — Oleksandr Kuzmenko
Кожен помітний реліз кодинг-агента проходить той самий епік розробки під ключ — планування, память, токен-економіка, код, само-ревью, тести, дизайн, чесний техборг. Оцінки й логи прогонів — на цій сторінці.
Лідерборди міряють моделі на ізольованих задачках. Реальна агентна робота інша: це оркестрована розробка — декомпозиція епіку, виживання після рестарту сесії, життя в межах токен-бюджету, ревью власного коду, тести і чесність щодо залишеного техборгу. Саме це оцінює наш бенчмарк.
Фіксований епік
Кожен інструмент отримує ту саму односторінкову специфікацію: «Standup Tracker» — повний продуктовий зріз (CRUD команд, щоденні записи, дашборд з аналітикою, responsive UI за фіксованим дизайн-специфікаціями), збудований з нуля у фіксованому референс-репозиторії. Web-трек на Next.js/TypeScript; mobile-трек на Expo — для інструментів, що заявляють таку компетенцію.
Що робить його складним — і чесним
- Обовʼязковий рестарт сесії посеред прогону. Довгострокова память оцінюється за тим, скільки контексту виживає без повторних пояснень. Налаштування власної памяті, правил і скілів інструмента дозволене — це і *є* оркестрація — але кожна конфігурація публікується в лозі прогону.
- Жорсткий токен-бюджет фіксується до старту. Закрити епік за половину бюджету — 5 балів; вичерпати — кінець прогону.
- Кожне людське втручання логується і коштує балів. Мета — «під ключ», а не парне програмування.
- Той самий коміт репозиторію, та сама специфікація, той самий бюджет для всіх; точні id моделей і версії фіксуються; повні логи прогонів публікуються.
10 вимірів (0–5 кожен, максимум 50)
1. Планування й декомпозиція 2. Довгострокова память (тест рестартом) 3. Токен-економіка 4. Якість коду (typecheck/lint/ідіоматичність) 5. Само-ревью і критика 6. Тести (unit + Playwright e2e, всі зелені) 7. Відповідність дизайну 8. Чесність техборгу 9. Автономність (втручання рахуються) 10. Час до готовності
Ми публікуємо профіль, а не лише суму: інструмент із 46 балами, що провалив память, — зовсім інший звір, ніж 46 із провалом дизайну.
Результати
Оцінених прогонів ще немає — протокол заморожено як v1, перші прогони заплановані. Кожен майбутній прогін додає сюди рядок: інструмент, версія, дата, сума, профіль вимірів, вартість і посилання на повний лог.
Чому цьому можна довіряти
Протокол, специфікація епіку і кожен лог прогону — публічні й версіоновані. Коли ми щось змінюємо, версія протоколу підвищується, і старі оцінки перестають бути порівнюваними — жодного тихого перегрейдингу.