Компания OpenAI провела исследование, чтобы проверить, насколько хорошо искусственный интеллект может программировать. Они хотели узнать, смогут ли нейросети заменить людей в разработке программного обеспечения. Для этого им было дано 1488 заданий с платформы Upwork – от простых исправлений до крупных проектов.
Upwork – это сайт, где заказчики могут найти фрилансеров для различных задач, например программирования, дизайна и копирайтинга. На сайте зарегистрировано много фрилансеров и клиентов. Компания помогает с оплатой работы, предоставляет инструменты для общения и управления проектами.
В эксперименте использовались три продвинутые нейросети: GPT-4o и o1 от OpenAI, а также Claude 3.5 Sonnet от Anthropic. Им было дано выполнить работы на миллион долларов, включая не только написание кода, но и принятие стратегических решений.
Задачи были разной сложности и стоимости. Нейросети должны были создавать приложения, работать с API, исправлять ошибки и принимать стратегические решения по разработке. Они также были проверены опытными программистами.
Лучше всех справилась нейросеть Claude 3.5 Sonnet. Она успешно справилась с программированием в 26,2% случаев и с ролью руководителя проектов в 44,9% случаев. Особое внимание уделялось сложным проектам, где нейросети показали хорошие результаты, но не без ошибок.
Исследование OpenAI показало, что нейросети все еще далеки от замены программистов. Они могут помочь в некоторых задачах, но не способны заменить человека полностью. Методология SWE-Lancer позволяет оценить, какую часть работы можно автоматизировать и сколько это будет стоить.