Перейти до вмісту
ATAI Today Brief
ГоловнаНовиниКонцептиГайдиІнструменти
Про насПідписатисяEN
Підписатися

AI Today Brief

Щоденний бриф з AI-інженерії. Built in public. EN · UA.

XTelegramLinkedInYouTubeRSS
НовиниКонцептиГайдиПідписатисяРекламаПро насРедакційна політикаAI-розкриттяПриватністьУмови

© 2026 AI Today Brief. Усі права захищені.

  1. Головна/
  2. Новини/
  3. Моделі й дослідження/
  4. CursorBench 3.1 оцінює вартість та ефективність елітних моделей для кодування
Моделі й дослідження

CursorBench 3.1 оцінює вартість та ефективність елітних моделей для кодування

2 липня 2026 р.· 5 хв читання
OKКуратор Oleksandr Kuzmenko, AI Product Engineer·Оновлено 2 липня 2026 р.·Джерела вказані в кожному матеріалі
За участі AI · перевірено редактором·Як ми використовуємо AI
CursorBench 3.1 оцінює вартість та ефективність елітних моделей для кодування

Cursor опублікував CursorBench 3.1, де порівняв провідні LLM у складних завданнях редагування та планування. Дані свідчать про величезну різницю у вартості API-токенів та кількості кроків виконання.

Вплив: Середній

Чому це важливо

Розуміння точного співвідношення ціни та ефективності для різних класів моделей допомагає компаніям оптимізувати витрати на автоматизованих агентів для кодування.

TL;DR

  • 01Fable 5 Extra High отримала найвищий бал у 72.0%, але з високою середньою вартістю $13.74 за завдання.
  • 02Gemini 3.5 Flash є вкрай економною з вартістю $1.94 за завдання, хоча й з нижчим результатом у 49.8%.
  • 03Невеликі розбіжності в оцінках моделей можуть бути статистично незначущими через варіативність виконання.

Ключові факти

Fable 5 Extra High точність72.0%
GPT-5.5 Extra High точність64.3%
Fable 5 Extra High точність
72.0%
Fable 5 Extra High середня вартість
$13.74
GPT-5.5 Extra High точність
64.3%
GPT-5.5 Extra High середня вартість
$4.37

Фокус на редагуванні та плануванні коду

CursorBench 3.1 містить оновлення, орієнтовані на глибоке розуміння кодової бази, виявлення помилок, планування та рецензування коду. Цей бенчмарк покращує критерії оцінювання для завдань з редагування, розширюючи початковий набір тестів, які фокусувалися на проблемах редагування, рефакторингу та виправлення багів.

Вартість багатокрокових запусків

Результати бенчмарку демонструють різницю у витратах на виконання однакових завдань:

  • Fable 5 Extra High: точність 72.0% | середня вартість $13.74 | 48,754 токени
  • GPT-5.5 Extra High: точність 64.3% | середня вартість $4.37 | 17,905 токенів
  • Sonnet 5 Extra High: точність 58.4% | середня вартість $5.23 | 58,228 токенів
  • Gemini 3.5 Flash: точність 49.8% | середня вартість $1.94 | 35,105 токенів

Розрахунок середньої вартості

Середня вартість одного завдання обчислюється шляхом застосування опублікованих тарифів кожної моделі (вхідні токени, читання з кешу, запис у кеш та вихідні токени) до обсягу токенів, використаних у кожному тесті. Оскільки результати можуть варіюватися, незначні розбіжності в оцінках можуть не бути статистично значущими.

#CursorBench#Gemini 3.5 Flash#GPT-5.5#Fable 5#Sonnet 5
ПоділитисяПоділитися в XПоділитися в LinkedIn
Наступна новина →GitHub презентує Qubot — внутрішнього аналітичного асистента на базі Copilot

Схожі матеріали

  • Моделі й дослідженняNVIDIA випустила Nemotron-Labs-TwoTower для прискореного виведення
  • Моделі й дослідженняAnthropic випускає Claude Sonnet 5
  • Моделі й дослідженняDiScoFormer: Трансформер для оцінки щільності та скорингу за один прохід
  • Моделі й дослідженняСпеціалізація є неминучою в оптимізації продуктивності ШІ

Email-дайджест

Отримуйте ранковий AI-бриф

Один лист на день — історії, що важливі для інженерів, фаундерів і техлідів. Редагує людина, з посиланнями на першоджерела.

  • ✓120+ джерел щодня
  • ✓Редагує людина
  • ✓1 лист на день
  • ✓EN + UA

Підписуючись, ви погоджуєтесь з політикою конфіденційності.