Консорциум исследований безопасности технологий искусственного интеллекта
Проекты
  • Рабочие группы
    • РГ-1
    • РГ-2
    • РГ-3
    • РГ-4
Информация
  • О Консорциуме
  • Участники
  • Реквизиты
  • Документы
Участники
Пресс-центр
  • Наша деятельность
  • Отраслевые новости
Контакты
    Консорциум исследований безопасности технологий искусственного интеллекта
    Проекты
    • Рабочие группы
      • РГ-1
      • РГ-2
      • РГ-3
      • РГ-4
    Информация
    • О Консорциуме
    • Участники
    • Реквизиты
    • Документы
    Участники
    Пресс-центр
    • Наша деятельность
    • Отраслевые новости
    Контакты
      Консорциум исследований безопасности технологий искусственного интеллекта
      0
      Консорциум исследований безопасности технологий искусственного интеллекта
      • Проекты
        • Назад
        • Проекты
        • Рабочие группы
          • Назад
          • Рабочие группы
          • РГ-1
          • РГ-2
          • РГ-3
          • РГ-4
      • Информация
        • Назад
        • Информация
        • О Консорциуме
        • Участники
        • Реквизиты
        • Документы
      • Участники
      • Пресс-центр
        • Назад
        • Пресс-центр
        • Наша деятельность
        • Отраслевые новости
      • Контакты
      • Кабинет
      • info@trust-ai.ru
      Главная
      Новости
      Отраслевые новости
      Дорогая цена прогресса: почему тестирование «разумных» ИИ-моделей стало таким затратным

      Дорогая цена прогресса: почему тестирование «разумных» ИИ-моделей стало таким затратным

      Отраслевые новости
      Лаборатории искусственного интеллекта, такие как OpenAI и Anthropic, активно развивают модели с «способностью рассуждать» — системы, которые могут анализировать задачи шаг за шагом, демонстрируя лучшие результаты в сложных областях, например, в физике или математике. Однако независимая проверка этих заявлений становится всё сложнее из-за резко возросших затрат на тестирование
      .

      Модели «рассуждений» в разы дороже в оценке

      Согласно данным Artificial Analysis, сторонней организации, специализирующейся на тестировании ИИ, бенчмаркинг OpenAI o1 на семи популярных тестах (включая MMLU-Pro, GPQA Diamond и AIME 2024) обошёлся в $2 676,05. Для сравнения:
      • Anthropic Claude 3.7 Sonnet (гибридная модель) — $1 485,35
      • OpenAI o3-mini-high — $344,59
      • GPT-4o (не «разумная» версия) — всего $108,85
      В среднем, тестирование дюжины моделей с «рассуждениями» стоило $5200, что почти в два раза превышает сумму, которую фирма потратила на анализ более 80 моделей нерассуждений ($2400).

      Почему так дорого? Токены и сложность тестов

      Основная причина — огромное количество токенов, которые генерируют «разумные» модели. Например, OpenAI o1 произвёл 44 млн токенов — в 8 раз больше, чем GPT-4o. Поскольку большинство ИИ-компаний берут плату за токены, стоимость тестирования быстро растёт.
      Современные бенчмарки также усложнились: теперь они включают многоэтапные задачи, такие как написание кода или веб-поиск, что требует больше вычислительных ресурсов.

      Критика прозрачности: кто может проверить результаты?

      Некоторые эксперты выражают сомнения в объективности тестирования:
      • Росс Тейлор (CEO General Reasoning) потратил $580 на оценку Claude3.7 Sonnet примерно на 3700 уникальных подсказок. Также он отметил, что один прогон MMLU Pro набора вопросов, предназначенного для сравнения навыков понимания языка модели, стоило бы более $1 800.

      • Жан-Станислас Денен (Epoch AI) подтверждает: лучшие модели дорожают (например, GPT-4.5 — $150/млнтокенов, аo1−pro $600/млнтокенов).
      Кроме того, многие лаборатории предоставляют бесплатный доступ для тестеров, что, по мнению критиков, ставит под сомнение независимость оценок.

      Будущее тестирования ИИ: рост затрат и вопросы воспроизводимости

      Организации, такие как Artificial Analysis, планируют увеличивать бюджеты на бенчмаркинг, но проблема воспроизводимости результатов остаётся. Как отмечает Тейлор:
      «Если никто не может повторить ваш результат — это вообще наука?»
      Пока ИИ-сообщество ищет баланс между прогрессом и прозрачностью, стоимость независимой проверки «разумных» моделей продолжает расти.

      https://techcrunch.com/2025/04/10/the-rise-of-ai-reasoning-models-is-making-benchmarking-more-expens...

      Назад к списку
      • Наша деятельность
      • Отраслевые новости
      Проекты
      Консорциум
      Контакты
      Контакты
      info@trust-ai.ru
      127273, Москва г, Отрадная ул., дом № 2Б, строение 1, этаж 9, комн.40
      © 2025 Консорциум исследований безопасности технологий искусственного интеллекта
      Политика конфиденциальности
      Карта сайта