Interfaze випускає першу багатомовну дифузійну модель розпізнавання мовлення
Стартап Interfaze випустив у відкритий доступ модель `diffusion-gemma-asr-small`, яка базується на DiffusionGemma-26B від Google. Вона розпізнає шість мов за допомогою компактного адаптера на 42 млн параметрів.
Вплив: Середній
Чому це важливо
Ви можете перейти від повільних авторегресійних моделей розпізнавання мовлення до двонаправлених дифузійних декодерів, де час обробки залежить від кроків денойзингу, а не від довжини.
TL;DR
- 01Вартість інференсу моделі залежить від кроків денойзингу, а не довжини тексту.
- 02Один адаптер на 42M параметрів підтримує відразу шість популярних мов.
- 03Для запуску потрібна остання версія бібліотеки transformers з головної гілки GitHub.
Ключові факти
- Параметри адаптера
- 42 млн (0.16% від ваг бекбону)
- WER (LibriSpeech clean)
- 6.6% (проти 8.3% у Whisfusion)
- Оптимальні кроки денойзингу
- Від 8 до 16
- Підтримувані мови
- 6 (англійська, німецька, французька, іспанська, хінді, мандаринська)
Неавторегресійна архітектура аудіо
Більшість розпізнавачів мовлення генерують текст по токену за крок. diffusion-gemma-asr-small використовує DiffusionGemma від Google, що працює на базі рівномірної дифузії випадкових токенів. Мережа створює фіксоване полотно з випадкових токенів і ітеративно коригує невпевнені позиції, доки не з'явиться готовий текст.
Усунення затухання градієнтів
На початку навчання градієнти не доходили до проектора аудіо. Команда Interfaze вирішила проблему, додавши прямий нагляд за 188 аудіотокенами за допомогою Connectionist Temporal Classification (CTC) loss через заморожений lm_head мовної моделі. Втрати CTC впали з 24 до 8.6 за 300 кроків, зв'язавши акустику з текстовим простором.
Тести та швидкість роботи
- Точність: Модель показала рівень помилок (WER) 6.6% на LibriSpeech clean, випередивши попередні дифузійні моделі на кшталт Whisfusion (8.3%).
- Компроміс швидкості: Кількість кроків денойзингу можна змінювати від 8 до 48. Використання 8 кроків дає майже максимальну точність при 3-кратному прискоренні, виконуючи транскрипцію 10-секундного кліпу всього за 8 паралельних проходів.
Спробуй за 2 хвилини
pypi_install = "pip install torch peft soundfile librosa huggingface_hub \"transformers @ git+https://github.com/huggingface/transformers.git\""
from huggingface_hub import snapshot_download
repo = snapshot_download("interfaze-ai/diffusion-gemma-asr-small")python
✓ Коли використовувати
- Конвеєри пакетного розпізнавання мовлення, де паралельне виконання швидше за послідовне декодування.
- Розгортання єдиної багатомовної системи для транскрипції європейських мов, хінді та китайської.
✕ Коли НЕ варто
- Задачі потокового розпізнавання наддовгих аудіо, що вимагають мінімального показника WER.
- Середовища без потужних карт CUDA для запуску фонової текстової моделі на 26 млрд параметрів.
Що зробити сьогодні
- Встановіть залежності та завантажте ваги адаптера з репозиторію Hugging Face.
- Протестуйте розпізнавання власних аудіофайлів з параметром `max_steps=8` для оцінки швидкості.
Джерела