Alibaba випускає Page Agent для прямої автоматизації браузера на стороні клієнта
Alibaba представила відкриту бібліотеку Page Agent, яка виконує команди природною мовою безпосередньо всередині веб-сторінки на клієнті. Вона аналізує DOM за допомогою методу дегідратації, обходячись без Playwright.
Вплив: Середній
Чому це важливо
Традиційні інструменти автоматизації керують браузером ззовні, що створює значне навантаження на рендеринг. Робота безпосередньо в контексті браузера знижує складність і дозволяє створювати безпечних вбудованих копілотів.
TL;DR
- 01Page Agent працює всередині веб-сторінки як чистий JavaScript і зчитує живий DOM як текст.
- 02Дегідратація DOM стискає вихідний HTML у FlatDomTree, роблячи роботу моделі дешевшою та точнішою.
- 03Оскільки запуск відбувається в клієнтській сесії, він успадковує автентифікацію та куки користувача без додаткового бекенду.
Ключові факти
- Ліцензія
- MIT
- Основна мова
- TypeScript
- Сумісні ендпоінти
- Будь-який OpenAI-сумісний API
Як працює дегідратація DOM
Сирий HTML занадто великий і дорогий для обробки моделями. Page Agent сканує DOM та створює дерево FlatDomTree, де залишаються лише інтерактивні елементи (кнопки, форми, посилання). Кожен об'єкт отримує індекс, що дозволяє суто текстовій моделі надсилати точні команди на основі номерів, замість довгих CSS-селекторів.
Нативна робота в сесії
Оскільки агент працює у контексті поточного вікна користувача:
- Збереження сесії: Користувачі залишаються авторизованими, включаючи збереження кук та сесійного стану.
- Візуальний фідбек: Агент підтримує опціональний візуальний зворотний зв'язок під час виконання за допомогою компонента SimulatorMask.
Заходи безпеки для Enterprise
Page Agent дозволяє налаштовувати списки дозволених операцій (allowlists), обмежуючи дії, які агент може виконувати. Також підтримується маскування конфіденційних даних та паролів перед їх надсиланням на API мовної моделі.
✓ Коли використовувати
- Для створення вбудованих у додаток асистентів чи автоматизації заповнення складних веб-форм у системах, якими ви керуєте.
✕ Коли НЕ варто
- Якщо автоматизація має відбуватися на декількох різних вкладках або вікнах без встановлення додаткових розширень.
Що зробити сьогодні
- Спробуйте інтегрувати Page Agent у ваші внутрішні панелі для нативної автоматизації рутинних дій.