Google випустила Gemini 3.5 Flash з керуванням комп'ютером та локальну Gemma 4 12B
Google інтегрувала функцію керування комп'ютером у Gemini 3.5 Flash, дозволяючи створювати агентів для автоматизації десктопних і веб-інтерфейсів. Також випущено відкриту модель Gemma 4 12B, яка працює локально на 16 ГБ пам'яті з підтримкою мультимодального зору та голосу.
Вплив: Високий
Чому це важливо
Тепер ви можете створювати бюджетних агентів автоматизації через API Gemini або запускати приватні мультимодальні процеси повністю офлайн.
TL;DR
- 01Gemini 3.5 Flash тепер підтримує керування інтерфейсом (computer use), що ідеально підходить для створення автотестів GUI.
- 02Gemma 4 12B виконує мультимодальні завдання локально на ноутбуках із 16 ГБ оперативної пам'яті, гарантуючи приватність даних.
- 03Gemini 3.5 Live Translate став доступним у публічному прев'ю для синхронного перекладу мовлення понад 70 мовами.
Ключові факти
- Вимоги до RAM для Gemma 4
- 16 ГБ
- Мов у Live Translate
- Понад 70
Створення агентів за допомогою Gemini 3.5 Flash Computer Use
Додавання можливостей керування комп'ютером у gemini-3.5-flash дозволяє розробникам створювати автономних агентів, які можуть візуально аналізувати системні інтерфейси та взаємодіяти з ними. Система інтерпретує стан екрана, планує наступні кроки та імітує введення з миші й клавіатури. Це рішення чудово оптимізоване для корпоративної автоматизації та безперервного регресійного тестування.
Офлайн-мультимодальність із Gemma 4 12B
Gemma 4 12B пропонує приватну локальну альтернативу для запуску на граничних пристроях (edge). Ключові характеристики моделі:
- Вимоги до пам'яті: Працює локально на звичайних ноутбуках, споживаючи лише 16 ГБ оперативної пам'яті.
- Мультимодальна архітектура: Має уніфікований дизайн із нативною підтримкою зору та обробки голосу в реальному часі в межах одного потоку.
- Розгортання: Орієнтоване на розробників, яким потрібна сувора конфіденційність та низька затримка без звернення до хмари.
Живий переклад та розширення API
Google також анонсувала Gemini 3.5 Live Translate. Ця аудіомодель виконує синхронний переклад мовлення в мовлення для понад 70 мов, зберігаючи природну інтонацію та мінімізуючи паузи. Вона доступна у публічному прев'ю через Gemini Live API та Google AI Studio.
Спробуй за 2 хвилини
from google import genai
from google.genai import types
client = genai.Client()
response = client.models.generate_content(
model='gemini-3.5-flash',
contents='Automate clicking the Chrome icon and opening github.com',
config=types.GenerateContentConfig(
tools=[{"computer_use": True}]
)
)python
✓ Коли використовувати
- Створення легких агентів автоматизації, які мають взаємодіяти з вебсайтами чи десктопними програмами.
- Розробка локальних офлайн-додатків, що потребують безпечного аналізу зображень та голосу.
✕ Коли НЕ варто
- Високонавантажена пакетна автоматизація, де headless-дії через API є швидшими за візуальне керування.
- Пристрої зі специфікаціями менше ніж 16 ГБ оперативної пам'яті для локального запуску Gemma 4.
Що зробити сьогодні
- Протестуйте API керування комп'ютером у Google AI Studio в ізольованому середовищі.
- Завантажте Gemma 4 12B, щоб оцінити затримку локального конвеєра зору/голосу на ноутбуці з 16 ГБ RAM.
Джерела