Skip to content Skip to sidebar Skip to footer

Искусственный интеллект не прошел проверку программистов

Компания OpenAI провела исследование, чтобы проверить, насколько хорошо искусственный интеллект может программировать. Они хотели узнать, смогут ли нейросети заменить людей в разработке программного обеспечения. Для этого им было дано 1488 заданий с платформы Upwork – от простых исправлений до крупных проектов.

Upwork – это сайт, где заказчики могут найти фрилансеров для различных задач, например программирования, дизайна и копирайтинга. На сайте зарегистрировано много фрилансеров и клиентов. Компания помогает с оплатой работы, предоставляет инструменты для общения и управления проектами.

В эксперименте использовались три продвинутые нейросети: GPT-4o и o1 от OpenAI, а также Claude 3.5 Sonnet от Anthropic. Им было дано выполнить работы на миллион долларов, включая не только написание кода, но и принятие стратегических решений.

Задачи были разной сложности и стоимости. Нейросети должны были создавать приложения, работать с API, исправлять ошибки и принимать стратегические решения по разработке. Они также были проверены опытными программистами.

Лучше всех справилась нейросеть Claude 3.5 Sonnet. Она успешно справилась с программированием в 26,2% случаев и с ролью руководителя проектов в 44,9% случаев. Особое внимание уделялось сложным проектам, где нейросети показали хорошие результаты, но не без ошибок.

Исследование OpenAI показало, что нейросети все еще далеки от замены программистов. Они могут помочь в некоторых задачах, но не способны заменить человека полностью. Методология SWE-Lancer позволяет оценить, какую часть работы можно автоматизировать и сколько это будет стоить.