Google представляє Gemini 3.5 Live Translate для мультимодальних голосових додатків у реальному часі

Google запустив Gemini 3.5 Live Translate з фокусом на низьку затримку та наскрізний голосовий переклад. Цей реліз надає розробникам прямий доступ до API для створення інтерактивних голосових агентів.
Вплив: Високий
Чому це важливо
Тепер ви можете обійтися без роздільних етапів розпізнавання, перекладу та озвучення тексту, використовуючи нативні голосові можливості Gemini.
TL;DR
- 01Наскрізне моделювання аудіо скорочує затримку відповіді до субсекундного рівня, комфортного для діалогу.
- 02Система зберігає емоційну просодію та природні паузи під час синхронного перекладу.
- 03Розробники можуть інтегрувати модель напряму через Gemini API SDK за допомогою стрімінгових сокетів.
Ключові факти
- Підтримувані мови
- 70+
- Мовні комбінації в Google Meet
- 2000+
- Обсяг тестування Grab
- понад 10 млн дзвінків на місяць
- Стандарт водяних знаків
- SynthID
Безперервний мультимодальний голосовий переклад
Google випустила модель Gemini 3.5 Live Translate, яка забезпечує переклад мовлення в мовлення майже в реальному часі для понад 70 мов. На відміну від традиційних покрокових систем, 3.5 Live Translate безперервно транслює аудіо, зберігаючи інтонацію, темп і висоту голосу оригінального спікера та відстаючи від нього всього на кілька секунд.
Широка інтеграція та партнери
Модель доступна в публічній версії (public preview) через Gemini Live API та Google AI Studio, а також у закритому прев'ю для корпоративних клієнтів у Google Meet. Серед ключових партнерів для потокового мовлення — Agora, Fishjam, LiveKit, Pipecat та Vision Agents. Гігант замовлення поїздок Grab наразі тестує цю технологію для обслуговування понад 10 мільйонів дзвінків на місяць між водіями та пасажирами.
Безпека та нові мобільні функції
Усе згенероване моделлю аудіо маркується за допомогою технології SynthID від Google для захисту контенту та запобігання дезінформації. Для мобільних користувачів на Android додано новий «режим прослуховування» (listening mode), який дозволяє тримати телефон біля вуха як під час звичайного дзвінка, щоб приватно чути переклад.
✓ Коли використовувати
- При створенні природних розмовних додатків для перекладу з мінімальною затримкою відповіді.
- Коли потрібен безперервний фоновий аудіопереклад для багатокрокових нарад.
✕ Коли НЕ варто
- Коли обов'язковою є робота в автономному режимі локально без доступу до мережі.
- Коли специфікація додатку забороняє наявність водяних знаків в аудіо.
Що зробити сьогодні
- Ознайомтеся з документацією Gemini API щодо нових ендпоінтів для стрімінгу аудіо в реальному часі.
- Протестуйте точність перекладу моделі на специфічній термінології вашої доменної області.