Компания OpenAI разработала новый тест PaperBench, который оценивает способность систем искусственного интеллекта воспроизводить научные исследования. Результаты показали, что современные ИИ-модели не могут полноценно заменить учёных, а исследователи-люди по-прежнему обладают значительным преимуществом.
Однако Claude 3.5 Sonnet, наоборот, показал снижение производительности — с 21% до 16,1%.
«Исследование выявило фундаментальные различия в том, как люди и системы искусственного интеллекта решают сложные исследовательские задачи. В то время как системы искусственного интеллекта быстро генерируют код в первый час, они быстро достигают плато и испытывают трудности со стратегическим планированием», — отмечают авторы.
Также выяснилось, что большинство ИИ-моделей преждевременно завершали работу, ошибочно считая задачу выполненной. Лишь Claude 3.5 Sonnet стабильно использовал весь отведённый временной интервал.
https://the-decoder.com/ai-struggles-to-match-human-researchers-in-paper-replication-test/
Как работает PaperBench?
Тест предлагает ИИ-системам воссоздать 20 научных работ, представленных на престижной конференции ICML 2024. Эти работы охватывают различные области машинного обучения: от глубокого обучения с подкреплением до вероятностных методов и тестирования надёжности.«Чтобы точно измерить производительность, команда работала напрямую с авторами оригинальной статьи, чтобы создать обширную систему оценки. В результате было создано более 8300 конкретных контрольных точек, которые определяют, успешно ли система воспроизводит исследование», — говорится в сообщении.У каждой модели ИИ есть 12 часов на выполнение задачи: они должны разработать полную кодовую базу и создать скрипт reproduce.sh, который автоматически запускает эксперименты.
Результаты тестирования
Даже лучшие модели справились с задачей лишь частично:- Claude 3.5 Sonnet (Anthropic) — 21% успешных воспроизведений,
- DeepSeek-R1 — 6%,
- GPT-4o (OpenAI) — 4,1%,
- Gemini 2.0 Flash (Google) — 3,2%.
- o1 (OpenAI) улучшил результат с 13,2% до 24,4%,
- o3-mini — с 2,6% до 8,5%.
Однако Claude 3.5 Sonnet, наоборот, показал снижение производительности — с 21% до 16,1%.
Люди vs. ИИ
Для сравнения OpenAI привлекла восемь аспирантов из ведущих университетов (Беркли, Кембридж, Корнелл). После 48 часов работы они достигли 41,4% успешных воспроизведений — это значительно выше, чем у любой ИИ-модели.«Исследование выявило фундаментальные различия в том, как люди и системы искусственного интеллекта решают сложные исследовательские задачи. В то время как системы искусственного интеллекта быстро генерируют код в первый час, они быстро достигают плато и испытывают трудности со стратегическим планированием», — отмечают авторы.
Также выяснилось, что большинство ИИ-моделей преждевременно завершали работу, ошибочно считая задачу выполненной. Лишь Claude 3.5 Sonnet стабильно использовал весь отведённый временной интервал.
Доступность теста
PaperBench уже доступен на GitHub, а OpenAI также предлагает упрощённую версию — PaperBench Code-Dev, которая фокусируется только на разработке кода (без его выполнения). Это сокращает затраты на оценку на 85%.«OpenAI разработала PaperBench для отслеживания растущих возможностей систем искусственного интеллекта в области независимых исследований, подчёркивая важность мониторинга безопасности ИИ по мере развития этих возможностей», — резюмируют разработчики.Несмотря на прогресс, современные ИИ-системы ещё не готовы к самостоятельной научной работе, и ключевая роль в исследованиях по-прежнему принадлежит людям.
https://the-decoder.com/ai-struggles-to-match-human-researchers-in-paper-replication-test/