Перейти до вмісту
ATAI Today Brief
ГоловнаНовиниКонцептиГайдиІнструменти
Про насПідписатисяEN
Підписатися

AI Today Brief

Щоденний бриф з AI-інженерії. Built in public. EN · UA.

XTelegramLinkedInYouTubeRSS
НовиниКонцептиГайдиПідписатисяРекламаПро насРедакційна політикаAI-розкриттяПриватністьУмови

© 2026 AI Today Brief. Усі права захищені.

  1. Головна/
  2. Новини/
  3. Моделі й дослідження/
  4. NVIDIA випустила Nemotron-Labs-TwoTower для прискореного виведення
Моделі й дослідження

NVIDIA випустила Nemotron-Labs-TwoTower для прискореного виведення

1 липня 2026 р.· 3 хв читання
OKКуратор Oleksandr Kuzmenko, AI Product Engineer·Оновлено 1 липня 2026 р.·Джерела вказані в кожному матеріалі
За участі AI · перевірено редактором·Як ми використовуємо AI
NVIDIA випустила Nemotron-Labs-TwoTower для прискореного виведення

Нова модель NVIDIA TwoTower поєднує авторегресійні бекбонди з дифузійним денойзером для збільшення пропускної здатності. Вона забезпечує у 2.42 раза швидшу генерацію порівняно зі звичайним декодуванням при збереженні 98.7% якості.

Вплив: Середній

Чому це важливо

Розробники можуть використовувати цю архітектуру для суттєвого зменшення затримок у завданнях генерації тексту з високою пропускною здатністю без втрати продуктивності.

TL;DR

  • 01Досягнення 2.42x швидкості генерації через паралельну блочну дифузію.
  • 02Збереження 98.7% якості порівняно зі стандартними AR-моделями.
  • 03Підтримка гібридних режимів виведення для гнучкого розгортання.
  • 04Потребує 2x H100 GPU для роботи в режимі повної дифузії.

Ключові факти

Покращення швидкості
2.42x (за даними розробника)
Збереження якості
98.7% (за даними розробника)
Вимоги до пам'яті
~59 ГБ на GPU (BF16)

Деталі архітектури

Модель базується на гібридному бекбонді Nemotron-3-Nano-30B-A3B, що поєднує шари Mamba-2, self-attention та Mixture-of-Experts (MoE). Вежа денойзера уточнює блоки токенів паралельно, значно прискорюючи процес.

Показники продуктивності

  • Прискорення: 2.42x порівняно з AR (базовий рівень) при γ=0.8.
  • Збереження якості: 98.7% від базових результатів AR.
  • Параметри: ~60 млрд параметрів сумарно.

Примітка щодо реалізації

Необхідно розмістити вежі на окремих пристроях для використання повної потужності дифузії. Переконайтеся, що використовуєте torch.bfloat16 для оптимального споживання пам'яті (~59 ГБ на GPU).

Спробуй за 2 хвилини

from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16")
model.place_towers_on_devices("cuda:0", "cuda:1")

python

✓ Коли використовувати

  • Високопродуктивна генерація синтетичного тексту.
  • Сценарії, де бюджет GPU дозволяє конфігурацію з 2 карт.
  • Коли незначна втрата якості прийнятна заради значного приросту швидкості.

Що зробити сьогодні

  • →Завантажте модель з Hugging Face.
  • →Розмістіть вежі на окремих пристроях CUDA, використовуючи наданий API.
  • →Протестуйте ваше робоче навантаження порівняно зі стандартним AR-декодуванням.
#Nemotron-Labs-TwoTower#H100#Mamba-2

Джерела

  • NVIDIA Releases Nemotron-Labs-TwoTower
ПоділитисяПоділитися в XПоділитися в LinkedIn
← Попередня новинаПропозиція Сенату AI AGENT Act впроваджує федеральне управління агентами

Схожі матеріали

  • Моделі й дослідженняAnthropic випускає Claude Sonnet 5
  • Моделі й дослідженняDiScoFormer: Трансформер для оцінки щільності та скорингу за один прохід
  • Моделі й дослідженняСпеціалізація є неминучою в оптимізації продуктивності ШІ
  • Моделі й дослідженняOrnith-1.0: відкриті моделі із самостійним структуруванням для агентного програмування

Email-дайджест

Отримуйте ранковий AI-бриф

Один лист на день — історії, що важливі для інженерів, фаундерів і техлідів. Редагує людина, з посиланнями на першоджерела.

  • ✓120+ джерел щодня
  • ✓Редагує людина
  • ✓1 лист на день
  • ✓EN + UA

Підписуючись, ви погоджуєтесь з політикою конфіденційності.