CursorBench 3.1 оцінює вартість та ефективність елітних моделей для кодування

Моделі й дослідження

2 липня 2026 р. 5 хв читання

Куратор Oleksandr Kuzmenko, AI Product EngineerОновлено 2 липня 2026 р.Джерела вказані в кожному матеріалі

За участі AI · перевірено редакторомЯк ми використовуємо AI

CursorBench 3.1 оцінює вартість та ефективність елітних моделей для кодування

Cursor опублікував CursorBench 3.1, де порівняв провідні LLM у складних завданнях редагування та планування. Дані свідчать про величезну різницю у вартості API-токенів та кількості кроків виконання.

Вплив: Середній

Чому це важливо

Розуміння точного співвідношення ціни та ефективності для різних класів моделей допомагає компаніям оптимізувати витрати на автоматизованих агентів для кодування.

TL;DR

01Fable 5 Extra High отримала найвищий бал у 72.0%, але з високою середньою вартістю $13.74 за завдання.
02Gemini 3.5 Flash є вкрай економною з вартістю $1.94 за завдання, хоча й з нижчим результатом у 49.8%.
03Невеликі розбіжності в оцінках моделей можуть бути статистично незначущими через варіативність виконання.

Ключові факти

Fable 5 Extra High точність: 72.0%
Fable 5 Extra High середня вартість: $13.74
GPT-5.5 Extra High точність: 64.3%
GPT-5.5 Extra High середня вартість: $4.37

Фокус на редагуванні та плануванні коду

CursorBench 3.1 містить оновлення, орієнтовані на глибоке розуміння кодової бази, виявлення помилок, планування та рецензування коду. Цей бенчмарк покращує критерії оцінювання для завдань з редагування, розширюючи початковий набір тестів, які фокусувалися на проблемах редагування, рефакторингу та виправлення багів.

Вартість багатокрокових запусків

Результати бенчмарку демонструють різницю у витратах на виконання однакових завдань:

Fable 5 Extra High: точність 72.0% | середня вартість $13.74 | 48,754 токени
GPT-5.5 Extra High: точність 64.3% | середня вартість $4.37 | 17,905 токенів
Sonnet 5 Extra High: точність 58.4% | середня вартість $5.23 | 58,228 токенів
Gemini 3.5 Flash: точність 49.8% | середня вартість $1.94 | 35,105 токенів

Розрахунок середньої вартості

Середня вартість одного завдання обчислюється шляхом застосування опублікованих тарифів кожної моделі (вхідні токени, читання з кешу, запис у кеш та вихідні токени) до обсягу токенів, використаних у кожному тесті. Оскільки результати можуть варіюватися, незначні розбіжності в оцінках можуть не бути статистично значущими.

#CursorBench#Gemini 3.5 Flash#GPT-5.5#Fable 5#Sonnet 5

ПоділитисяПоділитися в X Поділитися в LinkedIn

Моделі й дослідження

2 липня 2026 р. 5 хв читання

Куратор Oleksandr Kuzmenko, AI Product EngineerОновлено 2 липня 2026 р.Джерела вказані в кожному матеріалі

За участі AI · перевірено редакторомЯк ми використовуємо AI

Вплив: Середній

Чому це важливо

TL;DR

01Fable 5 Extra High отримала найвищий бал у 72.0%, але з високою середньою вартістю $13.74 за завдання.
02Gemini 3.5 Flash є вкрай економною з вартістю $1.94 за завдання, хоча й з нижчим результатом у 49.8%.
03Невеликі розбіжності в оцінках моделей можуть бути статистично незначущими через варіативність виконання.

Ключові факти

Fable 5 Extra High точність: 72.0%
Fable 5 Extra High середня вартість: $13.74
GPT-5.5 Extra High точність: 64.3%
GPT-5.5 Extra High середня вартість: $4.37

Фокус на редагуванні та плануванні коду

Вартість багатокрокових запусків

Результати бенчмарку демонструють різницю у витратах на виконання однакових завдань:

Fable 5 Extra High: точність 72.0% | середня вартість $13.74 | 48,754 токени
GPT-5.5 Extra High: точність 64.3% | середня вартість $4.37 | 17,905 токенів
Sonnet 5 Extra High: точність 58.4% | середня вартість $5.23 | 58,228 токенів
Gemini 3.5 Flash: точність 49.8% | середня вартість $1.94 | 35,105 токенів

Розрахунок середньої вартості

#CursorBench#Gemini 3.5 Flash#GPT-5.5#Fable 5#Sonnet 5

ПоділитисяПоділитися в X Поділитися в LinkedIn

CursorBench 3.1 оцінює вартість та ефективність елітних моделей для кодування

Фокус на редагуванні та плануванні коду

Вартість багатокрокових запусків

Розрахунок середньої вартості

Схожі матеріали

Отримуйте ранковий AI-бриф

CursorBench 3.1 оцінює вартість та ефективність елітних моделей для кодування

Фокус на редагуванні та плануванні коду

Вартість багатокрокових запусків

Розрахунок середньої вартості

Схожі матеріали

Отримуйте ранковий AI-бриф