Skip to content Skip to sidebar Skip to footer

Необходимость пересмотра Red Teaming для искусственного интеллекта

На мероприятии DEF CON 32 провели исследования по проверке безопасности искусственного интеллекта. Они показали, что текущий метод оценки не дает точной картины. Эксперты предлагают создать систему, подобную CVE, которая учитывает цель использования анализируемых объектов. На мероприятии приняли участие около 500 добровольцев с опытом аудита больших языковых моделей. За выявление недочетов им были выплачены премии на сумму…

Read More

Anthropic победила в битве с взломщиками

Американская компания Anthropic разработала новый способ защиты больших языковых моделей от попыток обойти их защиту. Эти модели обучены отказывать в ответах на опасные или неэтичные запросы. Однако существует много способов обойти эти ограничения, что может привести к нежелательным последствиям. Anthropic создала внешний барьер, который блокирует попытки взлома на начальной стадии запроса. Особое внимание уделено техникам, способным…

Read More