Колишній керівник розробки Qwen Цзюньян Лінь описав перехід від навчання моделей до агентів
Цзюньян Лінь, колишній техлід проекту Qwen в Alibaba, детально описав виклики гібридного мислення в Qwen3. Він стверджує, що індустрія переходить від чистого міркування (як o1 чи DeepSeek-R1) до агентного мислення, заснованого на взаємодії з оточенням.
Чому це важливо
Розуміння переходу від простого навчання моделей до оптимізації агентного середовища є критично важливим для розробників автономних рішень на базі LLM, які взаємодіють з реальними інструментами.
TL;DR
- 01Колишній техлід Qwen Цзюньян Лінь стверджує, що індустрія переходить від навчання моделей до навчання агентів.
- 02Агентне навчання з підкріпленням вимагає декуплінгу процесів тренування та інференсу для уникнення простою GPU.
- 03Моделі Qwen3 MoE масштабуються до 235 млрд параметрів із 128 експертами (8 активних на токен) та контекстом 128K.
Ключові факти
- Вікно контексту Qwen3
- 128K (щільні моделі та MoE), 32K (малі щільні моделі)
- Розміри параметрів Qwen3
- від 0.6B до 235B параметрів під ліцензією Apache 2.0
- Маршрутизація MoE
- Активація 8 зі 128 експертів на токен
Об'єднання режимів інструкцій та мислення
Поєднання покрокових роздумів (thinking mode) та миттєвих відповідей (instruct mode) є складним завданням. Інструктивні моделі оптимізують швидкість і лаконічність, тоді як моделі мислення заохочуються витрачати більше токенів на міркування. Неакуратне злиття веде до роздутих відповідей та деградації обох режимів. Qwen3 вирішував цю проблему за допомогою чотириетапного конвеєра післятренувальної підготовки (post-training pipeline), який включав «холодний старт» з довгим ланцюжком міркувань (long-CoT), навчання з підкріпленням для міркувань (reasoning RL) та етап злиття режимів мислення (thinking mode fusion). Гібридне мислення доступне безпосередньо в коді за допомогою прапорця enable_thinking для перемикання режимів.
Декуплінг агентного середовища
У класичному навчанні з підкріпленням (RL) для міркувань траєкторії виконання є ізольованими з миттєвою перевіркою відповідей (наприклад, у математиці чи коді). Проте агентне RL вимагає взаємодії з браузерами, серверами та терміналами. Щоб уникнути простою GPU під час очікування виконання інструментів, розробники мають розділяти інфраструктуру тренування та інференсу, фокусуючись на надійності та безпеці середовища виконання.
Архітектурні особливості Qwen3
Згідно з оприлюдненими даними, моделі Qwen3 з архітектурою суміші експертів (MoE) масштабуються до 235 млрд параметрів (128 експертів загалом, 8 активних на токен). Малі щільні моделі використовують спільні ембедінги та контекст 32K, тоді як великі моделі та версії MoE розділяють ембедінги та підтримують контекстне вікно до 128K під ліцензією Apache 2.0.