Перейти до вмісту
ATAI Today Brief
ГоловнаНовиниКонцептиГайдиІнструменти
Про насПідписатисяEN
Підписатися

AI Today Brief

Щоденний бриф з AI-інженерії. Built in public. EN · UA.

XTelegramLinkedInYouTubeRSS
НовиниКонцептиГайдиПідписатисяРекламаПро насРедакційна політикаAI-розкриттяПриватністьУмови

© 2026 AI Today Brief. Усі права захищені.

  1. Головна/
  2. Новини/
  3. Моделі й дослідження/
  4. Колишній керівник розробки Qwen Цзюньян Лінь описав перехід від навчання моделей до агентів
Моделі й дослідження

Колишній керівник розробки Qwen Цзюньян Лінь описав перехід від навчання моделей до агентів

5 липня 2026 р.· 6 хв читання
OKКуратор Oleksandr Kuzmenko, AI Product Engineer·Оновлено 5 липня 2026 р.·Джерела вказані в кожному матеріалі
За участі AI · перевірено редактором·Як ми використовуємо AI
Колишній керівник розробки Qwen Цзюньян Лінь описав перехід від навчання моделей до агентів

Цзюньян Лінь, колишній техлід проекту Qwen в Alibaba, детально описав виклики гібридного мислення в Qwen3. Він стверджує, що індустрія переходить від чистого міркування (як o1 чи DeepSeek-R1) до агентного мислення, заснованого на взаємодії з оточенням.

Чому це важливо

Розуміння переходу від простого навчання моделей до оптимізації агентного середовища є критично важливим для розробників автономних рішень на базі LLM, які взаємодіють з реальними інструментами.

TL;DR

  • 01Колишній техлід Qwen Цзюньян Лінь стверджує, що індустрія переходить від навчання моделей до навчання агентів.
  • 02Агентне навчання з підкріпленням вимагає декуплінгу процесів тренування та інференсу для уникнення простою GPU.
  • 03Моделі Qwen3 MoE масштабуються до 235 млрд параметрів із 128 експертами (8 активних на токен) та контекстом 128K.

Ключові факти

Вікно контексту Qwen3
128K (щільні моделі та MoE), 32K (малі щільні моделі)
Розміри параметрів Qwen3
від 0.6B до 235B параметрів під ліцензією Apache 2.0
Маршрутизація MoE
Активація 8 зі 128 експертів на токен

Об'єднання режимів інструкцій та мислення

Поєднання покрокових роздумів (thinking mode) та миттєвих відповідей (instruct mode) є складним завданням. Інструктивні моделі оптимізують швидкість і лаконічність, тоді як моделі мислення заохочуються витрачати більше токенів на міркування. Неакуратне злиття веде до роздутих відповідей та деградації обох режимів. Qwen3 вирішував цю проблему за допомогою чотириетапного конвеєра післятренувальної підготовки (post-training pipeline), який включав «холодний старт» з довгим ланцюжком міркувань (long-CoT), навчання з підкріпленням для міркувань (reasoning RL) та етап злиття режимів мислення (thinking mode fusion). Гібридне мислення доступне безпосередньо в коді за допомогою прапорця enable_thinking для перемикання режимів.

Декуплінг агентного середовища

У класичному навчанні з підкріпленням (RL) для міркувань траєкторії виконання є ізольованими з миттєвою перевіркою відповідей (наприклад, у математиці чи коді). Проте агентне RL вимагає взаємодії з браузерами, серверами та терміналами. Щоб уникнути простою GPU під час очікування виконання інструментів, розробники мають розділяти інфраструктуру тренування та інференсу, фокусуючись на надійності та безпеці середовища виконання.

Архітектурні особливості Qwen3

Згідно з оприлюдненими даними, моделі Qwen3 з архітектурою суміші експертів (MoE) масштабуються до 235 млрд параметрів (128 експертів загалом, 8 активних на токен). Малі щільні моделі використовують спільні ембедінги та контекст 32K, тоді як великі моделі та версії MoE розділяють ембедінги та підтримують контекстне вікно до 128K під ліцензією Apache 2.0.

#Qwen3#QwQ-32B#Qwen2.5-Max
ПоділитисяПоділитися в XПоділитися в LinkedIn
← Попередня новинаПерсональна ОС Istota інтегрує локальний ШІ з Nextcloud та текстовою бухгалтерією

Схожі матеріали

  • Моделі й дослідженняВикористання платформи Mistral AI поза межами стандартних чат-ботів
  • Моделі й дослідженняФреймворк ASPIRE від NVIDIA дистилює виправлення коду агентів у бібліотеки навичок
  • Моделі й дослідженняClaude Sonnet 5 отримав низькі оцінки в Arena через скарги на регресію

Email-дайджест

Отримуйте ранковий AI-бриф

Один лист на день — історії, що важливі для інженерів, фаундерів і техлідів. Редагує людина, з посиланнями на першоджерела.

  • ✓120+ джерел щодня
  • ✓Редагує людина
  • ✓1 лист на день
  • ✓EN + UA

Підписуючись, ви погоджуєтесь з політикою конфіденційності.