Консорциум исследований безопасности технологий искусственного интеллекта
Проекты
  • Рабочие группы
    • РГ-1
    • РГ-2
    • РГ-3
    • РГ-4
Информация
  • О Консорциуме
  • Участники
  • Реквизиты
  • Документы
Участники
Пресс-центр
  • Наша деятельность
  • Отраслевые новости
Контакты
    Консорциум исследований безопасности технологий искусственного интеллекта
    Проекты
    • Рабочие группы
      • РГ-1
      • РГ-2
      • РГ-3
      • РГ-4
    Информация
    • О Консорциуме
    • Участники
    • Реквизиты
    • Документы
    Участники
    Пресс-центр
    • Наша деятельность
    • Отраслевые новости
    Контакты
      Консорциум исследований безопасности технологий искусственного интеллекта
      0
      Консорциум исследований безопасности технологий искусственного интеллекта
      • Проекты
        • Назад
        • Проекты
        • Рабочие группы
          • Назад
          • Рабочие группы
          • РГ-1
          • РГ-2
          • РГ-3
          • РГ-4
      • Информация
        • Назад
        • Информация
        • О Консорциуме
        • Участники
        • Реквизиты
        • Документы
      • Участники
      • Пресс-центр
        • Назад
        • Пресс-центр
        • Наша деятельность
        • Отраслевые новости
      • Контакты
      • Кабинет
      • info@trust-ai.ru
      Главная
      Новости
      Отраслевые новости
      OpenAI представила тест PaperBench: ИИ пока не может заменить исследователей

      OpenAI представила тест PaperBench: ИИ пока не может заменить исследователей

      Отраслевые новости
      Компания OpenAI разработала новый тест PaperBench, который оценивает способность систем искусственного интеллекта воспроизводить научные исследования. Результаты показали, что современные ИИ-модели не могут полноценно заменить учёных, а исследователи-люди по-прежнему обладают значительным преимуществом.

      Как работает PaperBench?

      Тест предлагает ИИ-системам воссоздать 20 научных работ, представленных на престижной конференции ICML 2024. Эти работы охватывают различные области машинного обучения: от глубокого обучения с подкреплением до вероятностных методов и тестирования надёжности.
      «Чтобы точно измерить производительность, команда работала напрямую с авторами оригинальной статьи, чтобы создать обширную систему оценки. В результате было создано более 8300 конкретных контрольных точек, которые определяют, успешно ли система воспроизводит исследование», — говорится в сообщении.
      У каждой модели ИИ есть 12 часов на выполнение задачи: они должны разработать полную кодовую базу и создать скрипт reproduce.sh, который автоматически запускает эксперименты.

      Результаты тестирования

      Даже лучшие модели справились с задачей лишь частично:
      • Claude 3.5 Sonnet (Anthropic) — 21% успешных воспроизведений,
      • DeepSeek-R1 — 6%,
      • GPT-4o (OpenAI) — 4,1%,
      • Gemini 2.0 Flash (Google) — 3,2%.
      OpenAI также протестировала улучшенный фреймворк IterativeAgent, который повысил эффективность некоторых моделей:
      • o1 (OpenAI) улучшил результат с 13,2% до 24,4%,
      • o3-mini — с 2,6% до 8,5%.

      Однако Claude 3.5 Sonnet, наоборот, показал снижение производительности — с 21% до 16,1%.

      Люди vs. ИИ

      Для сравнения OpenAI привлекла восемь аспирантов из ведущих университетов (Беркли, Кембридж, Корнелл). После 48 часов работы они достигли 41,4% успешных воспроизведений — это значительно выше, чем у любой ИИ-модели.
      «Исследование выявило фундаментальные различия в том, как люди и системы искусственного интеллекта решают сложные исследовательские задачи. В то время как системы искусственного интеллекта быстро генерируют код в первый час, они быстро достигают плато и испытывают трудности со стратегическим планированием», — отмечают авторы.
      Также выяснилось, что большинство ИИ-моделей преждевременно завершали работу, ошибочно считая задачу выполненной. Лишь Claude 3.5 Sonnet стабильно использовал весь отведённый временной интервал.

      Доступность теста

      PaperBench уже доступен на GitHub, а OpenAI также предлагает упрощённую версию — PaperBench Code-Dev, которая фокусируется только на разработке кода (без его выполнения). Это сокращает затраты на оценку на 85%.
      «OpenAI разработала PaperBench для отслеживания растущих возможностей систем искусственного интеллекта в области независимых исследований, подчёркивая важность мониторинга безопасности ИИ по мере развития этих возможностей», — резюмируют разработчики.
      Несмотря на прогресс, современные ИИ-системы ещё не готовы к самостоятельной научной работе, и ключевая роль в исследованиях по-прежнему принадлежит людям.

      https://the-decoder.com/ai-struggles-to-match-human-researchers-in-paper-replication-test/



      Назад к списку
      • Наша деятельность
      • Отраслевые новости
      Проекты
      Консорциум
      Контакты
      Контакты
      info@trust-ai.ru
      127273, Москва г, Отрадная ул., дом № 2Б, строение 1, этаж 9, комн.40
      © 2025 Консорциум исследований безопасности технологий искусственного интеллекта
      Политика конфиденциальности
      Карта сайта