Ornith-1.0: відкриті моделі із самостійним структуруванням для агентного програмування
Deep Reinforce представила Ornith-1.0 — сімейство моделей (від 9B до 397B параметрів), які самостійно вдосконалюють свої інструкції (скаффолди) для агентного кодингу. Вони демонструють конкурентні результати на бенчмарках для програмування.
Чому це важливо
Це відхід від фіксованих інструкцій, створених людьми, що дозволяє моделям автономно розробляти логіку оркестрації, необхідну для складних завдань програмування.
TL;DR
- 01Архітектура з самовдосконаленням скаффолда.
- 02Зменшення залежності від розроблених людьми інструментів тестування.
- 03Багаторівневий підхід до запобігання хакінгу винагороди.
Спільна еволюція моделі та скаффолда
Ornith-1.0 використовує фреймворк навчання, де допоміжна інфраструктура (скаффолд) еволюціонує разом із політикою. Під час RL модель пропонує скаффолд під завдання, а потім генерує рішення. Винагорода оптимізує як оркестратор, так і виконання, забезпечуючи автономний розвиток стратегій.
Захист від хакінгу винагороди
Для протидії хакінгу винагороди Ornith-1.0 використовує три рівні ізоляції: незмінний зовнішній контур безпеки, детермінований монітор та заморожену модель-суддю, що накладає вето.