Перейти до вмісту
ATAI Today Brief
ГоловнаНовиниКонцептиГайдиІнструменти
Про насПідписатисяEN
Підписатися

AI Today Brief

Щоденний бриф з AI-інженерії. Built in public. EN · UA.

XTelegramLinkedInYouTubeRSS
НовиниКонцептиГайдиПідписатисяРекламаПро насРедакційна політикаAI-розкриттяПриватністьУмови

© 2026 AI Today Brief. Усі права захищені.

  1. Головна/
  2. Новини/
  3. Локальні LLM/
  4. Interfaze випускає першу багатомовну дифузійну модель розпізнавання мовлення
Локальні LLM

Interfaze випускає першу багатомовну дифузійну модель розпізнавання мовлення

3 липня 2026 р.· 4 хв читання
OKКуратор Oleksandr Kuzmenko, AI Product Engineer·Оновлено 3 липня 2026 р.·Джерела вказані в кожному матеріалі
За участі AI · перевірено редактором·Як ми використовуємо AI
Interfaze випускає першу багатомовну дифузійну модель розпізнавання мовлення

Стартап Interfaze випустив у відкритий доступ модель `diffusion-gemma-asr-small`, яка базується на DiffusionGemma-26B від Google. Вона розпізнає шість мов за допомогою компактного адаптера на 42 млн параметрів.

Вплив: Середній

Чому це важливо

Ви можете перейти від повільних авторегресійних моделей розпізнавання мовлення до двонаправлених дифузійних декодерів, де час обробки залежить від кроків денойзингу, а не від довжини.

TL;DR

  • 01Вартість інференсу моделі залежить від кроків денойзингу, а не довжини тексту.
  • 02Один адаптер на 42M параметрів підтримує відразу шість популярних мов.
  • 03Для запуску потрібна остання версія бібліотеки transformers з головної гілки GitHub.

Ключові факти

Параметри адаптера
42 млн (0.16% від ваг бекбону)
WER (LibriSpeech clean)
6.6% (проти 8.3% у Whisfusion)
Оптимальні кроки денойзингу
Від 8 до 16
Підтримувані мови
6 (англійська, німецька, французька, іспанська, хінді, мандаринська)

Неавторегресійна архітектура аудіо

Більшість розпізнавачів мовлення генерують текст по токену за крок. diffusion-gemma-asr-small використовує DiffusionGemma від Google, що працює на базі рівномірної дифузії випадкових токенів. Мережа створює фіксоване полотно з випадкових токенів і ітеративно коригує невпевнені позиції, доки не з'явиться готовий текст.

Усунення затухання градієнтів

На початку навчання градієнти не доходили до проектора аудіо. Команда Interfaze вирішила проблему, додавши прямий нагляд за 188 аудіотокенами за допомогою Connectionist Temporal Classification (CTC) loss через заморожений lm_head мовної моделі. Втрати CTC впали з 24 до 8.6 за 300 кроків, зв'язавши акустику з текстовим простором.

Тести та швидкість роботи

  • Точність: Модель показала рівень помилок (WER) 6.6% на LibriSpeech clean, випередивши попередні дифузійні моделі на кшталт Whisfusion (8.3%).
  • Компроміс швидкості: Кількість кроків денойзингу можна змінювати від 8 до 48. Використання 8 кроків дає майже максимальну точність при 3-кратному прискоренні, виконуючи транскрипцію 10-секундного кліпу всього за 8 паралельних проходів.

Спробуй за 2 хвилини

pypi_install = "pip install torch peft soundfile librosa huggingface_hub \"transformers @ git+https://github.com/huggingface/transformers.git\""
from huggingface_hub import snapshot_download
repo = snapshot_download("interfaze-ai/diffusion-gemma-asr-small")

python

✓ Коли використовувати

  • Конвеєри пакетного розпізнавання мовлення, де паралельне виконання швидше за послідовне декодування.
  • Розгортання єдиної багатомовної системи для транскрипції європейських мов, хінді та китайської.

✕ Коли НЕ варто

  • Задачі потокового розпізнавання наддовгих аудіо, що вимагають мінімального показника WER.
  • Середовища без потужних карт CUDA для запуску фонової текстової моделі на 26 млрд параметрів.

Що зробити сьогодні

  • →Встановіть залежності та завантажте ваги адаптера з репозиторію Hugging Face.
  • →Протестуйте розпізнавання власних аудіофайлів з параметром `max_steps=8` для оцінки швидкості.
#DiffusionGemma#Whisper#transformers

Джерела

  • diffusion-gemma-asr-small Model Card
ПоділитисяПоділитися в XПоділитися в LinkedIn
Наступна новина →Alibaba випускає Page Agent для прямої автоматизації браузера на стороні клієнта

Схожі матеріали

  • Локальні LLMДослідження Стенфорда: понад сімдесят відсотків запитів до ChatGPT можна вирішити локальними моделями
  • Локальні LLMРозгортання Qwen 3.6 27B для локальної розробки

Email-дайджест

Отримуйте ранковий AI-бриф

Один лист на день — історії, що важливі для інженерів, фаундерів і техлідів. Редагує людина, з посиланнями на першоджерела.

  • ✓120+ джерел щодня
  • ✓Редагує людина
  • ✓1 лист на день
  • ✓EN + UA

Підписуючись, ви погоджуєтесь з політикою конфіденційності.