Модель Qwen3.5-35B Heretic зберігає технологію Multi-Token Prediction для надшвидкої локальної генерації
26 травня 2026 р. · Редактор — Oleksandr Kuzmenko
З'явилася налаштована модель Qwen 3.5 із збереженими рідними заголовками Multi-Token Prediction для швидкої генерації. Використовуйте формати NVFP4 або GGUF для запуску на споживчих відеокартах.
Чому це важливо
Тепер ви можете запускати потужну 35B модель для кодування на споживчій відеокарті майже вдвічі швидше завдяки оптимізованим форматам квантування.
Ключові висновки
- Завантажте Qwen3.5 35B Heretic у форматах NVFP4 або GGUF для оптимізованої локальної роботи
- Налаштуйте llama.cpp із draft-моделями для активації прискорення Multi-Token Prediction
- Використовуйте цю модель для написання скриптів безпеки та автоматичного скрапінгу без відмов
Запуск локальних моделей для агентного кодування зазвичай означає компроміс між швидкістю та інтелектом. Архітектура Qwen 3.5 чудово підходить для написання коду, але стандартні моделі сильно цензуровані, а спекулятивне декодування часто втрачає продуктивність після модифікацій. Цей реліз зберігає оригінальні заголовки Multi-Token Prediction (MTP), що забезпечує надшвидку локальну генерацію в середовищах, які підтримують спекулятивне декодування.
На відміну від стандартних авторегресійних моделей, які передбачають по одному токену за раз, моделі з підтримкою Multi-Token Prediction передбачають кілька майбутніх токенів паралельно під час одного прямого проходу. Зберігаючи всі 785 оригінальних структур MTP, ви можете запускати цю модель у форматах GGUF або Safetensors, подвоюючи локальну швидкість генерації без втрати логічних здібностей базової моделі.
Якщо ви створюєте приватний локальний агентний цикл, який автоматично пише код, створює тести та рефакторить компоненти, ви можете запустити цю модель на одній споживчій відеокарті з 24 ГБ відеопам'яті, використовуючи формати NVFP4 або GPTQ-Int4. Відсутність цензури гарантує, що модель ніколи не відмовиться писати скрапери чи скрипти для тестування безпеки.
Щоб повністю використати переваги MTP, вам знадобляться рушії виконання на кшталт llama.cpp або vLLM, налаштовані спеціально для роботи з допоміжною draft-моделлю, оскільки стандартний запуск розглядає її як звичайну модель, втрачаючи приріст швидкості.
Ця модель є обов'язковим інструментом для локального запуску, якщо вам потрібен якісний код без цензури та з максимальною швидкістю виконання.
Джерело: Reddit · r/LocalLLaMA ↗