NVIDIA випустила Nemotron-Labs-TwoTower для прискореного виведення

Моделі й дослідження

1 липня 2026 р. 3 хв читання

Куратор Oleksandr Kuzmenko, AI Product EngineerОновлено 1 липня 2026 р.Джерела вказані в кожному матеріалі

За участі AI · перевірено редакторомЯк ми використовуємо AI

NVIDIA випустила Nemotron-Labs-TwoTower для прискореного виведення

Нова модель NVIDIA TwoTower поєднує авторегресійні бекбонди з дифузійним денойзером для збільшення пропускної здатності. Вона забезпечує у 2.42 раза швидшу генерацію порівняно зі звичайним декодуванням при збереженні 98.7% якості.

Вплив: Середній

Чому це важливо

Розробники можуть використовувати цю архітектуру для суттєвого зменшення затримок у завданнях генерації тексту з високою пропускною здатністю без втрати продуктивності.

TL;DR

01Досягнення 2.42x швидкості генерації через паралельну блочну дифузію.
02Збереження 98.7% якості порівняно зі стандартними AR-моделями.
03Підтримка гібридних режимів виведення для гнучкого розгортання.
04Потребує 2x H100 GPU для роботи в режимі повної дифузії.

Ключові факти

Покращення швидкості: 2.42x (за даними розробника)
Збереження якості: 98.7% (за даними розробника)
Вимоги до пам'яті: ~59 ГБ на GPU (BF16)

Деталі архітектури

Модель базується на гібридному бекбонді Nemotron-3-Nano-30B-A3B, що поєднує шари Mamba-2, self-attention та Mixture-of-Experts (MoE). Вежа денойзера уточнює блоки токенів паралельно, значно прискорюючи процес.

Показники продуктивності

Прискорення: 2.42x порівняно з AR (базовий рівень) при γ=0.8.
Збереження якості: 98.7% від базових результатів AR.
Параметри: ~60 млрд параметрів сумарно.

Примітка щодо реалізації

Необхідно розмістити вежі на окремих пристроях для використання повної потужності дифузії. Переконайтеся, що використовуєте torch.bfloat16 для оптимального споживання пам'яті (~59 ГБ на GPU).

Спробуй за 2 хвилини

from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16")
model.place_towers_on_devices("cuda:0", "cuda:1")

python

✓ Коли використовувати

Високопродуктивна генерація синтетичного тексту.
Сценарії, де бюджет GPU дозволяє конфігурацію з 2 карт.
Коли незначна втрата якості прийнятна заради значного приросту швидкості.

Що зробити сьогодні

Завантажте модель з Hugging Face.
Розмістіть вежі на окремих пристроях CUDA, використовуючи наданий API.
Протестуйте ваше робоче навантаження порівняно зі стандартним AR-декодуванням.

#Nemotron-Labs-TwoTower#H100#Mamba-2

Джерела

NVIDIA Releases Nemotron-Labs-TwoTower

ПоділитисяПоділитися в X Поділитися в LinkedIn

Моделі й дослідження

1 липня 2026 р. 3 хв читання

Куратор Oleksandr Kuzmenko, AI Product EngineerОновлено 1 липня 2026 р.Джерела вказані в кожному матеріалі

За участі AI · перевірено редакторомЯк ми використовуємо AI

Вплив: Середній

Чому це важливо

TL;DR

01Досягнення 2.42x швидкості генерації через паралельну блочну дифузію.
02Збереження 98.7% якості порівняно зі стандартними AR-моделями.
03Підтримка гібридних режимів виведення для гнучкого розгортання.
04Потребує 2x H100 GPU для роботи в режимі повної дифузії.

Ключові факти

Покращення швидкості: 2.42x (за даними розробника)
Збереження якості: 98.7% (за даними розробника)
Вимоги до пам'яті: ~59 ГБ на GPU (BF16)

Деталі архітектури

Показники продуктивності

Прискорення: 2.42x порівняно з AR (базовий рівень) при γ=0.8.
Збереження якості: 98.7% від базових результатів AR.
Параметри: ~60 млрд параметрів сумарно.

Примітка щодо реалізації

Спробуй за 2 хвилини

from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16")
model.place_towers_on_devices("cuda:0", "cuda:1")

python

✓ Коли використовувати

Високопродуктивна генерація синтетичного тексту.
Сценарії, де бюджет GPU дозволяє конфігурацію з 2 карт.
Коли незначна втрата якості прийнятна заради значного приросту швидкості.

Що зробити сьогодні

Завантажте модель з Hugging Face.
Розмістіть вежі на окремих пристроях CUDA, використовуючи наданий API.
Протестуйте ваше робоче навантаження порівняно зі стандартним AR-декодуванням.

#Nemotron-Labs-TwoTower#H100#Mamba-2

Джерела

NVIDIA Releases Nemotron-Labs-TwoTower

ПоділитисяПоділитися в X Поділитися в LinkedIn

NVIDIA випустила Nemotron-Labs-TwoTower для прискореного виведення

Деталі архітектури

Показники продуктивності

Примітка щодо реалізації

Схожі матеріали

Отримуйте ранковий AI-бриф

NVIDIA випустила Nemotron-Labs-TwoTower для прискореного виведення

Деталі архітектури

Показники продуктивності

Примітка щодо реалізації

Схожі матеріали

Отримуйте ранковий AI-бриф