AI Today BriefПідписатися
local llms

Метод Rotary GPU дозволяє запускати локальні моделі Mixture of Experts при обмеженій VRAM

31 травня 2026 р. · Редактор — Oleksandr Kuzmenko

Метод Rotary GPU оптимізує VRAM при запуску локальних моделей Mixture of Experts. Шляхом динамічної заміни активних шарів через PCIe можна запускати великі моделі на споживчих GPU. Працюйте з 8x22B локально.

Чому це важливо

Дозволяючи запускати великі MoE-моделі на споживчих GPU, цей метод дає можливість використовувати потужні локальні моделі без витрат на API.

Ключові висновки

  • Впроваджуйте конфігурації Rotary GPU при запуску моделей Mixture of Experts на одній споживчій відеокарті
  • Використовуйте спекулятивне випереджальне завантаження для компенсації затримок PCIe
  • Передавайте офлайн-аналіз коду фоновим локальним моделям MoE

Запуск потужних моделей Mixture of Experts (MoE) локально зазвичай вимагав робочих станцій із кількома корпоративними відеокартами через величезні вимоги до відеопам'яті (VRAM). Метод Rotary GPU впроваджує конвеєр виконання, який дозволяє запускати великі моделі MoE на споживчому залізі з обмеженим обсягом пам'яті. Він долає апаратні обмеження шляхом оптимізації розподілу шарів.\n\nУ моделях MoE для кожного окремого токена активується лише частина параметрів (експертні мережі). Звичайні локальні інструменти завантажують усю модель у VRAM, що обмежує доступні розміри моделей. Rotary GPU тримає у відеопам'яті лише базові шари уваги та маршрутизації, тоді як експертні шари зберігаються в оперативній пам'яті комп'ютера (RAM) та динамічно завантажуються за потреби.\n\nДля компенсації затримок передачі параметрів через шину PCIe, Rotary GPU використовує спекулятивне випереджальне завантаження. Поки GPU обробляє поточний токен, фоновий потік передбачає, які експертні шари знадобляться для наступних токенів, та завантажує їх у циклічний буфер VRAM, поєднуючи обчислення з передачею даних.\n\nЯкщо ви хочете запустити модель класу Mixtral 8x22B на одному ПК з відеокартою NVIDIA RTX 4090, ця технологія запобігає помилкам нестачі пам'яті. Вона динамічно вивантажує неактивні ваги з 24 ГБ VRAM, забезпечуючи високу якість міркувань без підписок на хмарні сервіси.\n\nАле є компроміс: незважаючи на випереджальне завантаження, швидкість генерації токенів є нижчою за повне виконання у VRAM. Це робить метод чудовим для фонових завдань (офлайн-індексація коду, автогенерація документації), а не для інтерактивного чату.\n\nRotary GPU — це важлива архітектурна розробка, що відкриває доступ до великих локальних MoE-моделей на стандартних робочих станціях.

Джерело: Hacker News