CursorBench 3.1 оцінює вартість та ефективність елітних моделей для кодування
Cursor опублікував CursorBench 3.1, де порівняв провідні LLM у складних завданнях редагування та планування. Дані свідчать про величезну різницю у вартості API-токенів та кількості кроків виконання.
Вплив: Середній
Чому це важливо
Розуміння точного співвідношення ціни та ефективності для різних класів моделей допомагає компаніям оптимізувати витрати на автоматизованих агентів для кодування.
TL;DR
- 01Fable 5 Extra High отримала найвищий бал у 72.0%, але з високою середньою вартістю $13.74 за завдання.
- 02Gemini 3.5 Flash є вкрай економною з вартістю $1.94 за завдання, хоча й з нижчим результатом у 49.8%.
- 03Невеликі розбіжності в оцінках моделей можуть бути статистично незначущими через варіативність виконання.
Ключові факти
- Fable 5 Extra High точність
- 72.0%
- Fable 5 Extra High середня вартість
- $13.74
- GPT-5.5 Extra High точність
- 64.3%
- GPT-5.5 Extra High середня вартість
- $4.37
Фокус на редагуванні та плануванні коду
CursorBench 3.1 містить оновлення, орієнтовані на глибоке розуміння кодової бази, виявлення помилок, планування та рецензування коду. Цей бенчмарк покращує критерії оцінювання для завдань з редагування, розширюючи початковий набір тестів, які фокусувалися на проблемах редагування, рефакторингу та виправлення багів.
Вартість багатокрокових запусків
Результати бенчмарку демонструють різницю у витратах на виконання однакових завдань:
- Fable 5 Extra High: точність 72.0% | середня вартість $13.74 | 48,754 токени
- GPT-5.5 Extra High: точність 64.3% | середня вартість $4.37 | 17,905 токенів
- Sonnet 5 Extra High: точність 58.4% | середня вартість $5.23 | 58,228 токенів
- Gemini 3.5 Flash: точність 49.8% | середня вартість $1.94 | 35,105 токенів
Розрахунок середньої вартості
Середня вартість одного завдання обчислюється шляхом застосування опублікованих тарифів кожної моделі (вхідні токени, читання з кешу, запис у кеш та вихідні токени) до обсягу токенів, використаних у кожному тесті. Оскільки результати можуть варіюватися, незначні розбіжності в оцінках можуть не бути статистично значущими.