Фреймворк ASPIRE від NVIDIA дистилює виправлення коду агентів у бібліотеки навичок
ASPIRE пропонує архітектуру "код як політика" для робоагентів на базі Claude Code, яка навчається в процесі роботи. Замість відкидання виправлень, фреймворк дистилює успішні латки у переносну бібліотеку навичок.
Вплив: Середній
Чому це важливо
Застосуйте цикл дистиляції навичок ASPIRE у власних агентах розробки для збереження успішних патернів між окремими сесіями.
TL;DR
- 01Дистилює підтверджені виправлення у компактні інструкції для повторного використання у контексті.
- 02Застосовує покрокове мультимодальне трасування викликів замість бінарного фідбеку про завершення завдання.
- 03Досягає 31% успішності у тривалих zero-shot завданнях порівняно з 4% у традиційних методів.
Ключові факти
- Успіх у тривалих zero-shot завданнях
- 31% (проти 4% у базових)
- Зменшення витрат токенів на реальний дебаг
- в 10 разів
- Передача об'єктів у Robosuite
- 92% (проти 20% у базових)
Детальна локалізація помилок
Замість узагальненого фідбеку про успіх всього процесу, ASPIRE збирає вхідні й вихідні дані та статус виконання для кожного виклику. Якщо стається збій, агент аналізує лише ті виклики, які безпосередньо його спровокували, визначаючи точні причини (наприклад, вихід за межі буфера колізій), замість будування здогадок на основі фінального стану.
Еволюційний пошук рішень
Щоб агент не застрягав у нескінченних циклах дрібних правок однієї і тієї ж невдалої стратегії, ASPIRE використовує еволюційний пошук. Кожен раунд він генерує $K$ різних варіантів програм на основі найкращих попередніх спроб та решти помилок, спонукаючи до пошуку альтернативних шляхів.
Перенесення з симулятора на реальне залізо
ASPIRE симулювався через Claude Code під управлінням Claude Opus 4.6 (вікно контексту 1M токенів), що генерував код CaP-X для MuJoCo. Перенесення знайдених навичок на фізичних роботів (дворучна станція YAM на базі OpenAI Codex GPT-5.5) зменшило витрати токенів до 10 разів, покращивши успішність виконання завдань (наприклад, підняття банок зросло з 13/20 до 19/20).
Спробуй за 2 хвилини
# ASPIRE in-context skill sketch
for angle_deg in [180, -90, 90, -45, 45]:
tx = radio_pos[0] + 0.7 * np.cos(np.radians(angle_deg))
ty = radio_pos[1] + 0.7 * np.sin(np.radians(angle_deg))
moved = safe_navigate([tx, ty, face_yaw], f"ang_{angle_deg}")
if moved and dist_to(radio_pos[:2]) < 0.8:
breakpython
✓ Коли використовувати
- При створенні тривалих автономних агентів, які виконують фізичні команди або взаємодіють зі складними багатокроковими API.
✕ Коли НЕ варто
- Коли ваш агент взаємодіє з простими API, де поведінка коду повністю передбачувана й не потребує налагодження під час виконання.
Що зробити сьогодні
- Реалізуйте структуроване збереження метаданих для відстеження входу/виходу окремих функцій у ваших агентах.
- Створіть шаблон промпту для автоматичного стиснення успішних багатокрокових сесій дебагу в лаконічні інструкції.
Джерела