Перейти до вмісту
ATAI Today Brief
ГоловнаНовиниКонцептиГайдиІнструменти
Про насПідписатисяEN
Підписатися

AI Today Brief

Щоденний бриф з AI-інженерії. Built in public. EN · UA.

XTelegramLinkedInYouTubeRSS
НовиниКонцептиГайдиПідписатисяРекламаПро насРедакційна політикаAI-розкриттяПриватністьУмови

© 2026 AI Today Brief. Усі права захищені.

  1. Головна/
  2. Новини/
  3. Інструменти й релізи/
  4. Google представляє Gemini 3.5 Live Translate для мультимодальних голосових додатків у реальному часі
Інструменти й релізи

Google представляє Gemini 3.5 Live Translate для мультимодальних голосових додатків у реальному часі

10 червня 2026 р.· 5 хв читання
OKКуратор Oleksandr Kuzmenko, AI Product Engineer·Оновлено 10 червня 2026 р.·Джерела вказані в кожному матеріалі
За участі AI · перевірено редактором·Як ми використовуємо AI
Google представляє Gemini 3.5 Live Translate для мультимодальних голосових додатків у реальному часі

Google запустив Gemini 3.5 Live Translate з фокусом на низьку затримку та наскрізний голосовий переклад. Цей реліз надає розробникам прямий доступ до API для створення інтерактивних голосових агентів.

Вплив: Високий

Чому це важливо

Тепер ви можете обійтися без роздільних етапів розпізнавання, перекладу та озвучення тексту, використовуючи нативні голосові можливості Gemini.

TL;DR

  • 01Наскрізне моделювання аудіо скорочує затримку відповіді до субсекундного рівня, комфортного для діалогу.
  • 02Система зберігає емоційну просодію та природні паузи під час синхронного перекладу.
  • 03Розробники можуть інтегрувати модель напряму через Gemini API SDK за допомогою стрімінгових сокетів.

Ключові факти

Підтримувані мови70+
Обсяг тестування Grabпонад 10 млн дзвінків на місяць
Підтримувані мови
70+
Мовні комбінації в Google Meet
2000+
Обсяг тестування Grab
понад 10 млн дзвінків на місяць
Стандарт водяних знаків
SynthID

Безперервний мультимодальний голосовий переклад

Google випустила модель Gemini 3.5 Live Translate, яка забезпечує переклад мовлення в мовлення майже в реальному часі для понад 70 мов. На відміну від традиційних покрокових систем, 3.5 Live Translate безперервно транслює аудіо, зберігаючи інтонацію, темп і висоту голосу оригінального спікера та відстаючи від нього всього на кілька секунд.

Широка інтеграція та партнери

Модель доступна в публічній версії (public preview) через Gemini Live API та Google AI Studio, а також у закритому прев'ю для корпоративних клієнтів у Google Meet. Серед ключових партнерів для потокового мовлення — Agora, Fishjam, LiveKit, Pipecat та Vision Agents. Гігант замовлення поїздок Grab наразі тестує цю технологію для обслуговування понад 10 мільйонів дзвінків на місяць між водіями та пасажирами.

Безпека та нові мобільні функції

Усе згенероване моделлю аудіо маркується за допомогою технології SynthID від Google для захисту контенту та запобігання дезінформації. Для мобільних користувачів на Android додано новий «режим прослуховування» (listening mode), який дозволяє тримати телефон біля вуха як під час звичайного дзвінка, щоб приватно чути переклад.

✓ Коли використовувати

  • При створенні природних розмовних додатків для перекладу з мінімальною затримкою відповіді.
  • Коли потрібен безперервний фоновий аудіопереклад для багатокрокових нарад.

✕ Коли НЕ варто

  • Коли обов'язковою є робота в автономному режимі локально без доступу до мережі.
  • Коли специфікація додатку забороняє наявність водяних знаків в аудіо.

Що зробити сьогодні

  • →Ознайомтеся з документацією Gemini API щодо нових ендпоінтів для стрімінгу аудіо в реальному часі.
  • →Протестуйте точність перекладу моделі на специфічній термінології вашої доменної області.
#Gemini 3.5 Live Translate#Gemini API
ПоділитисяПоділитися в XПоділитися в LinkedIn
← Попередня новинаЧи можуть великі мовні моделі перевершити класичні алгоритми оптимізації гіперпараметрів?Наступна новина →Microsoft випустила MarkItDown для конвертації офісних документів у чистий Markdown

Схожі матеріали

  • Інструменти й релізиDupehound: локальний детермінований детектор дублікатів коду для агентної розробки
  • Інструменти й релізиMoonshot AI випустила відкриту модель для кодингу Kimi Code K2.7
  • Інструменти й релізиGoogle позивається проти кіберзлочинців через фішингові кампанії з використанням Gemini
  • Інструменти й релізиVisa інтегрувала токенізацію платежів у ChatGPT для безпосередніх покупок через ШІ-агентів

Email-дайджест

Отримуйте ранковий AI-бриф

Один лист на день — історії, що важливі для інженерів, фаундерів і техлідів. Редагує людина, з посиланнями на першоджерела.

  • ✓120+ джерел щодня
  • ✓Редагує людина
  • ✓1 лист на день
  • ✓EN + UA

Підписуючись, ви погоджуєтесь з політикою конфіденційності.