Google випустила Gemini 3.5 Flash з керуванням комп'ютером та локальну Gemma 4 12B

Агенти й MCP

1 липня 2026 р. 5 хв читання

Куратор Oleksandr Kuzmenko, AI Product EngineerОновлено 1 липня 2026 р.Джерела вказані в кожному матеріалі

За участі AI · перевірено редакторомЯк ми використовуємо AI

Google випустила Gemini 3.5 Flash з керуванням комп'ютером та локальну Gemma 4 12B

Google інтегрувала функцію керування комп'ютером у Gemini 3.5 Flash, дозволяючи створювати агентів для автоматизації десктопних і веб-інтерфейсів. Також випущено відкриту модель Gemma 4 12B, яка працює локально на 16 ГБ пам'яті з підтримкою мультимодального зору та голосу.

Вплив: Високий

Чому це важливо

Тепер ви можете створювати бюджетних агентів автоматизації через API Gemini або запускати приватні мультимодальні процеси повністю офлайн.

TL;DR

01Gemini 3.5 Flash тепер підтримує керування інтерфейсом (computer use), що ідеально підходить для створення автотестів GUI.
02Gemma 4 12B виконує мультимодальні завдання локально на ноутбуках із 16 ГБ оперативної пам'яті, гарантуючи приватність даних.
03Gemini 3.5 Live Translate став доступним у публічному прев'ю для синхронного перекладу мовлення понад 70 мовами.

Ключові факти

Вимоги до RAM для Gemma 4: 16 ГБ
Мов у Live Translate: Понад 70

Створення агентів за допомогою Gemini 3.5 Flash Computer Use

Додавання можливостей керування комп'ютером у gemini-3.5-flash дозволяє розробникам створювати автономних агентів, які можуть візуально аналізувати системні інтерфейси та взаємодіяти з ними. Система інтерпретує стан екрана, планує наступні кроки та імітує введення з миші й клавіатури. Це рішення чудово оптимізоване для корпоративної автоматизації та безперервного регресійного тестування.

Офлайн-мультимодальність із Gemma 4 12B

Gemma 4 12B пропонує приватну локальну альтернативу для запуску на граничних пристроях (edge). Ключові характеристики моделі:

Вимоги до пам'яті: Працює локально на звичайних ноутбуках, споживаючи лише 16 ГБ оперативної пам'яті.
Мультимодальна архітектура: Має уніфікований дизайн із нативною підтримкою зору та обробки голосу в реальному часі в межах одного потоку.
Розгортання: Орієнтоване на розробників, яким потрібна сувора конфіденційність та низька затримка без звернення до хмари.

Живий переклад та розширення API

Google також анонсувала Gemini 3.5 Live Translate. Ця аудіомодель виконує синхронний переклад мовлення в мовлення для понад 70 мов, зберігаючи природну інтонацію та мінімізуючи паузи. Вона доступна у публічному прев'ю через Gemini Live API та Google AI Studio.

Спробуй за 2 хвилини

from google import genai
from google.genai import types

client = genai.Client()
response = client.models.generate_content(
    model='gemini-3.5-flash',
    contents='Automate clicking the Chrome icon and opening github.com',
    config=types.GenerateContentConfig(
        tools=[{"computer_use": True}]
    )
)

python

✓ Коли використовувати

Створення легких агентів автоматизації, які мають взаємодіяти з вебсайтами чи десктопними програмами.
Розробка локальних офлайн-додатків, що потребують безпечного аналізу зображень та голосу.

✕ Коли НЕ варто

Високонавантажена пакетна автоматизація, де headless-дії через API є швидшими за візуальне керування.
Пристрої зі специфікаціями менше ніж 16 ГБ оперативної пам'яті для локального запуску Gemma 4.

Що зробити сьогодні

Протестуйте API керування комп'ютером у Google AI Studio в ізольованому середовищі.
Завантажте Gemma 4 12B, щоб оцінити затримку локального конвеєра зору/голосу на ноутбуці з 16 ГБ RAM.

#Gemini#Gemma#Google AI Studio

Джерела

The latest AI news we announced in June 2026

ПоділитисяПоділитися в X Поділитися в LinkedIn

from google import genai from google.genai import types client = genai.Client() response = client.models.generate_content( model='gemini-3.5-flash', contents='Automate clicking the Chrome icon and opening github.com', config=types.GenerateContentConfig( tools=[{"computer_use": True}] ) )

Google випустила Gemini 3.5 Flash з керуванням комп'ютером та локальну Gemma 4 12B

Створення агентів за допомогою Gemini 3.5 Flash Computer Use

Офлайн-мультимодальність із Gemma 4 12B

Живий переклад та розширення API

Схожі матеріали

Отримуйте ранковий AI-бриф

Google випустила Gemini 3.5 Flash з керуванням комп'ютером та локальну Gemma 4 12B

Створення агентів за допомогою Gemini 3.5 Flash Computer Use

Офлайн-мультимодальність із Gemma 4 12B

Живий переклад та розширення API

Схожі матеріали

Отримуйте ранковий AI-бриф