Перейти до вмісту
ATAI Today Brief
ГоловнаНовиниКонцептиГайдиІнструменти
Про насПідписатисяEN
Підписатися

AI Today Brief

Щоденний бриф з AI-інженерії. Built in public. EN · UA.

XTelegramLinkedInYouTubeRSS
НовиниКонцептиГайдиПідписатисяРекламаПро насРедакційна політикаAI-розкриттяПриватністьУмови

© 2026 AI Today Brief. Усі права захищені.

  1. Головна/
  2. Новини/
  3. Агенти й MCP/
  4. Google випустила Gemini 3.5 Flash з керуванням комп'ютером та локальну Gemma 4 12B
Агенти й MCP

Google випустила Gemini 3.5 Flash з керуванням комп'ютером та локальну Gemma 4 12B

1 липня 2026 р.· 5 хв читання
OKКуратор Oleksandr Kuzmenko, AI Product Engineer·Оновлено 1 липня 2026 р.·Джерела вказані в кожному матеріалі
За участі AI · перевірено редактором·Як ми використовуємо AI
Google випустила Gemini 3.5 Flash з керуванням комп'ютером та локальну Gemma 4 12B

Google інтегрувала функцію керування комп'ютером у Gemini 3.5 Flash, дозволяючи створювати агентів для автоматизації десктопних і веб-інтерфейсів. Також випущено відкриту модель Gemma 4 12B, яка працює локально на 16 ГБ пам'яті з підтримкою мультимодального зору та голосу.

Вплив: Високий

Чому це важливо

Тепер ви можете створювати бюджетних агентів автоматизації через API Gemini або запускати приватні мультимодальні процеси повністю офлайн.

TL;DR

  • 01Gemini 3.5 Flash тепер підтримує керування інтерфейсом (computer use), що ідеально підходить для створення автотестів GUI.
  • 02Gemma 4 12B виконує мультимодальні завдання локально на ноутбуках із 16 ГБ оперативної пам'яті, гарантуючи приватність даних.
  • 03Gemini 3.5 Live Translate став доступним у публічному прев'ю для синхронного перекладу мовлення понад 70 мовами.

Ключові факти

Вимоги до RAM для Gemma 416 ГБ
Мов у Live TranslateПонад 70
Вимоги до RAM для Gemma 4
16 ГБ
Мов у Live Translate
Понад 70

Створення агентів за допомогою Gemini 3.5 Flash Computer Use

Додавання можливостей керування комп'ютером у gemini-3.5-flash дозволяє розробникам створювати автономних агентів, які можуть візуально аналізувати системні інтерфейси та взаємодіяти з ними. Система інтерпретує стан екрана, планує наступні кроки та імітує введення з миші й клавіатури. Це рішення чудово оптимізоване для корпоративної автоматизації та безперервного регресійного тестування.

Офлайн-мультимодальність із Gemma 4 12B

Gemma 4 12B пропонує приватну локальну альтернативу для запуску на граничних пристроях (edge). Ключові характеристики моделі:

  • Вимоги до пам'яті: Працює локально на звичайних ноутбуках, споживаючи лише 16 ГБ оперативної пам'яті.
  • Мультимодальна архітектура: Має уніфікований дизайн із нативною підтримкою зору та обробки голосу в реальному часі в межах одного потоку.
  • Розгортання: Орієнтоване на розробників, яким потрібна сувора конфіденційність та низька затримка без звернення до хмари.

Живий переклад та розширення API

Google також анонсувала Gemini 3.5 Live Translate. Ця аудіомодель виконує синхронний переклад мовлення в мовлення для понад 70 мов, зберігаючи природну інтонацію та мінімізуючи паузи. Вона доступна у публічному прев'ю через Gemini Live API та Google AI Studio.

Спробуй за 2 хвилини

from google import genai
from google.genai import types

client = genai.Client()
response = client.models.generate_content(
    model='gemini-3.5-flash',
    contents='Automate clicking the Chrome icon and opening github.com',
    config=types.GenerateContentConfig(
        tools=[{"computer_use": True}]
    )
)

python

✓ Коли використовувати

  • Створення легких агентів автоматизації, які мають взаємодіяти з вебсайтами чи десктопними програмами.
  • Розробка локальних офлайн-додатків, що потребують безпечного аналізу зображень та голосу.

✕ Коли НЕ варто

  • Високонавантажена пакетна автоматизація, де headless-дії через API є швидшими за візуальне керування.
  • Пристрої зі специфікаціями менше ніж 16 ГБ оперативної пам'яті для локального запуску Gemma 4.

Що зробити сьогодні

  • →Протестуйте API керування комп'ютером у Google AI Studio в ізольованому середовищі.
  • →Завантажте Gemma 4 12B, щоб оцінити затримку локального конвеєра зору/голосу на ноутбуці з 16 ГБ RAM.
#Gemini#Gemma#Google AI Studio

Джерела

  • The latest AI news we announced in June 2026
ПоділитисяПоділитися в XПоділитися в LinkedIn
← Попередня новинаАгент Gemini Spark вийшов на macOS з підтримкою MCPНаступна новина →Anthropic запускає Claude Science — новий флагманський продукт для наукових досліджень

Схожі матеріали

  • Агенти й MCPПропозиція Сенату AI AGENT Act впроваджує федеральне управління агентами
  • Агенти й MCPАгент Gemini Spark вийшов на macOS з підтримкою MCP
  • Агенти й MCPActi запускає локально-орієнтовану агентну клавіатуру для смартфонів на базі Google Gemini
  • Агенти й MCPСуперечка щодо телеметрії Claude Code: промпт-стеганографія

Email-дайджест

Отримуйте ранковий AI-бриф

Один лист на день — історії, що важливі для інженерів, фаундерів і техлідів. Редагує людина, з посиланнями на першоджерела.

  • ✓120+ джерел щодня
  • ✓Редагує людина
  • ✓1 лист на день
  • ✓EN + UA

Підписуючись, ви погоджуєтесь з політикою конфіденційності.