NVIDIA випустила Nemotron-Labs-TwoTower для прискореного виведення
Нова модель NVIDIA TwoTower поєднує авторегресійні бекбонди з дифузійним денойзером для збільшення пропускної здатності. Вона забезпечує у 2.42 раза швидшу генерацію порівняно зі звичайним декодуванням при збереженні 98.7% якості.
Вплив: Середній
Чому це важливо
Розробники можуть використовувати цю архітектуру для суттєвого зменшення затримок у завданнях генерації тексту з високою пропускною здатністю без втрати продуктивності.
TL;DR
- 01Досягнення 2.42x швидкості генерації через паралельну блочну дифузію.
- 02Збереження 98.7% якості порівняно зі стандартними AR-моделями.
- 03Підтримка гібридних режимів виведення для гнучкого розгортання.
- 04Потребує 2x H100 GPU для роботи в режимі повної дифузії.
Ключові факти
- Покращення швидкості
- 2.42x (за даними розробника)
- Збереження якості
- 98.7% (за даними розробника)
- Вимоги до пам'яті
- ~59 ГБ на GPU (BF16)
Деталі архітектури
Модель базується на гібридному бекбонді Nemotron-3-Nano-30B-A3B, що поєднує шари Mamba-2, self-attention та Mixture-of-Experts (MoE). Вежа денойзера уточнює блоки токенів паралельно, значно прискорюючи процес.
Показники продуктивності
- Прискорення: 2.42x порівняно з AR (базовий рівень) при γ=0.8.
- Збереження якості: 98.7% від базових результатів AR.
- Параметри: ~60 млрд параметрів сумарно.
Примітка щодо реалізації
Необхідно розмістити вежі на окремих пристроях для використання повної потужності дифузії. Переконайтеся, що використовуєте torch.bfloat16 для оптимального споживання пам'яті (~59 ГБ на GPU).
Спробуй за 2 хвилини
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16")
model.place_towers_on_devices("cuda:0", "cuda:1")python
✓ Коли використовувати
- Високопродуктивна генерація синтетичного тексту.
- Сценарії, де бюджет GPU дозволяє конфігурацію з 2 карт.
- Коли незначна втрата якості прийнятна заради значного приросту швидкості.
Що зробити сьогодні
- Завантажте модель з Hugging Face.
- Розмістіть вежі на окремих пристроях CUDA, використовуючи наданий API.
- Протестуйте ваше робоче навантаження порівняно зі стандартним AR-декодуванням.
Джерела