Лаборатории искусственного интеллекта, такие как OpenAI и Anthropic, активно развивают модели с «способностью рассуждать» — системы, которые могут анализировать задачи шаг за шагом, демонстрируя лучшие результаты в сложных областях, например, в физике или математике. Однако независимая проверка этих заявлений становится всё сложнее из-за резко возросших затрат на тестирование
.
• Anthropic Claude 3.7 Sonnet (гибридная модель) — $1 485,35
• OpenAI o3-mini-high — $344,59
• GPT-4o (не «разумная» версия) — всего $108,85
В среднем, тестирование дюжины моделей с «рассуждениями» стоило $5200, что почти в два раза превышает сумму, которую фирма потратила на анализ более 80 моделей нерассуждений ($2400).
Современные бенчмарки также усложнились: теперь они включают многоэтапные задачи, такие как написание кода или веб-поиск, что требует больше вычислительных ресурсов.
• Росс Тейлор (CEO General Reasoning) потратил $580 на оценку Claude3.7 Sonnet примерно на 3700 уникальных подсказок. Также он отметил, что один прогон MMLU Pro набора вопросов, предназначенного для сравнения навыков понимания языка модели, стоило бы более $1 800.
• Жан-Станислас Денен (Epoch AI) подтверждает: лучшие модели дорожают (например, GPT-4.5 — $150/млнтокенов, аo1−pro $600/млнтокенов).
Кроме того, многие лаборатории предоставляют бесплатный доступ для тестеров, что, по мнению критиков, ставит под сомнение независимость оценок.
«Если никто не может повторить ваш результат — это вообще наука?»
Пока ИИ-сообщество ищет баланс между прогрессом и прозрачностью, стоимость независимой проверки «разумных» моделей продолжает расти.
https://techcrunch.com/2025/04/10/the-rise-of-ai-reasoning-models-is-making-benchmarking-more-expens...
.
Модели «рассуждений» в разы дороже в оценке
Согласно данным Artificial Analysis, сторонней организации, специализирующейся на тестировании ИИ, бенчмаркинг OpenAI o1 на семи популярных тестах (включая MMLU-Pro, GPQA Diamond и AIME 2024) обошёлся в $2 676,05. Для сравнения:• Anthropic Claude 3.7 Sonnet (гибридная модель) — $1 485,35
• OpenAI o3-mini-high — $344,59
• GPT-4o (не «разумная» версия) — всего $108,85
В среднем, тестирование дюжины моделей с «рассуждениями» стоило $5200, что почти в два раза превышает сумму, которую фирма потратила на анализ более 80 моделей нерассуждений ($2400).
Почему так дорого? Токены и сложность тестов
Основная причина — огромное количество токенов, которые генерируют «разумные» модели. Например, OpenAI o1 произвёл 44 млн токенов — в 8 раз больше, чем GPT-4o. Поскольку большинство ИИ-компаний берут плату за токены, стоимость тестирования быстро растёт.Современные бенчмарки также усложнились: теперь они включают многоэтапные задачи, такие как написание кода или веб-поиск, что требует больше вычислительных ресурсов.
Критика прозрачности: кто может проверить результаты?
Некоторые эксперты выражают сомнения в объективности тестирования:• Росс Тейлор (CEO General Reasoning) потратил $580 на оценку Claude3.7 Sonnet примерно на 3700 уникальных подсказок. Также он отметил, что один прогон MMLU Pro набора вопросов, предназначенного для сравнения навыков понимания языка модели, стоило бы более $1 800.
• Жан-Станислас Денен (Epoch AI) подтверждает: лучшие модели дорожают (например, GPT-4.5 — $150/млнтокенов, аo1−pro $600/млнтокенов).
Кроме того, многие лаборатории предоставляют бесплатный доступ для тестеров, что, по мнению критиков, ставит под сомнение независимость оценок.
Будущее тестирования ИИ: рост затрат и вопросы воспроизводимости
Организации, такие как Artificial Analysis, планируют увеличивать бюджеты на бенчмаркинг, но проблема воспроизводимости результатов остаётся. Как отмечает Тейлор:«Если никто не может повторить ваш результат — это вообще наука?»
Пока ИИ-сообщество ищет баланс между прогрессом и прозрачностью, стоимость независимой проверки «разумных» моделей продолжает расти.
https://techcrunch.com/2025/04/10/the-rise-of-ai-reasoning-models-is-making-benchmarking-more-expens...