MosaicLeaks: виявлення витоків приватності в дослідницьких агентах
Дослідники виявили, що агенти часто викривають внутрішні дані, поєднуючи приватний контекст із публічними вебзапитами. Новий метод навчання PA-DR зменшує цей витік, штрафуючи запити, що відкривають фрагменти конфіденційної інформації.
Вплив: Середній
Чому це важливо
Якщо ваша архітектура агентів поєднує пошук у локальних документах із вебпошуком, вона, ймовірно, передає фрагменти ваших приватних даних пошуковим системам.
TL;DR
- 01Передача специфічних локальних фактів у вебзапити агентів підвищує ризик витоку даних.
- 02Прості інструкції (system prompts) щодо приватності є неефективними та знижують точність роботи.
- 03Навчання за методом PA-DR балансує точність і приватність, оцінюючи запити покроково.
Ключові факти
- Початкова успішність ланцюжків
- 48.7%
- Успішність ланцюжків з PA-DR
- 58.7%
- Початковий рівень витоку
- 34.0%
- Рівень витоку з PA-DR
- 9.9%
Механізм мозаїчного витоку
Основна проблема полягає в змішуванні локальних знань із зовнішнім пошуком. Коли агент робить запит у пошукову систему щодо «міграції MediConn на 70%», це може здаватися невинним, але в поєднанні з попередніми запитами про звіти з безпеки зловмисник може вивести внутрішні корпоративні факти. Дослідники виділили три рівні витоку: наміри (inferring research goals), відповіді (answering private questions) та повна інформація (stating true private facts).
Складнощі захисту
Просте прохання до агента «не розголошувати дані» є недостатнім. Для таких моделей, як Qwen3-4B, це часто знижує ефективність виконання завдань (успішність ланцюжків падає з 48.7% до 44.5%) без надання стабільного захисту. Навчання для підвищення точності виконання завдань лише погіршує ситуацію: моделі вчаться включати більше конкретного контексту в запити для кращого результату, що створює більше каналів для витоку.
Рішення PA-DR
Privacy-Aware Deep Research (PA-DR) використовує гранулярну систему винагород. Вона призначає «вартість приватності» безпосередньо в момент планування. Якщо передбачається, що запит викриває інформацію або сприяє витоку через мозаїку, модель отримує штраф. Це дозволяє моделі балансувати між якістю пошуку та безпекою даних.
✓ Коли використовувати
- Для агентів, що проводять глибокі дослідження на основі закритих внутрішніх документів.
- У корпоративних системах, що вимагають суворої ізоляції даних.
Що зробити сьогодні
- Проведіть аудит вихідних пошукових запитів ваших агентів на предмет згадок конфіденційних даних.
- Обмежте обсяг контексту, що передається у вебпошукові функції агентів.
Джерела