Дослідження Стенфорда: понад сімдесят відсотків запитів до ChatGPT можна вирішити локальними моделями
Дослідження Стенфордського університету показує, що 71.3% запитів, які зазвичай надсилають до хмарних сервісів на кшталт ChatGPT, можна ефективно обробляти локально на пристроях, що дозволяє суттєво знизити витрати на API.
Вплив: Високий
Чому це важливо
Проаналізуйте свої сценарії запитів та замініть дорогі хмарні моделі локальними альтернативами для підвищення конфіденційності та економії коштів.
TL;DR
- 01Понад 70% звичайних завдань для LLM не потребують дорогих флагманських хмарних моделей.
- 02Перенаправлення простих запитів на локальні інстанси знижує інфраструктурні витрати.
- 03Перехід на локальні моделі гарантує автономність роботи та повний контроль над даними.
Ключові факти
- Запити для локального вирішення
- 71.3%
- Організатор дослідження
- Стенфордський університет
Стратегія високорівневої маршрутизації
Для практичного втілення результатів дослідження розробникам варто розгорнути легкого агента-маршрутизатора. Замість відправки 100% запитів до GPT-4o чи Claude 3.5 Sonnet, роутер оцінює складність задачі. Якщо це просте вилучення даних, класифікація або форматування, запит надсилається на локальну модель через Ollama або vLLM.
Економія коштів та зниження затримок
Локальна обробка 71.3% трафіку дозволяє зменшити витрати на сторонні API вдвічі або більше. Окрім цього, запуск спеціалізованих локальних моделей (наприклад, Qwen 2.5-Coder або Llama 3 8B) на власних серверах забезпечує менший час очікування першого токена (TTFT) порівняно з хмарними запитами.
Спробуй за 2 хвилини
# Quickly pull and run a local coding model to test routing offloads
ollama run qwen2.5-coder:7bbash
✓ Коли використовувати
- При розробці високонавантажених конвеєрів даних, рутинної обробки тексту та додатків із жорсткими вимогами до конфіденційності.
✕ Коли НЕ варто
- Коли завдання вимагають складних логічних висновків, багатоетапного планування або глибокого міждоменного синтезу.
Що зробити сьогодні
- Встановіть Ollama локально та завантажте компактну модель Qwen2.5-Coder-7B.
- Проаналізуйте логи API вашої команди, щоб оцінити відсоток запитів, які можна перенести локально.
Джерела