Американская компания Anthropic разработала новый способ защиты больших языковых моделей от попыток обойти их защиту. Эти модели обучены отказывать в ответах на опасные или неэтичные запросы. Однако существует много способов обойти эти ограничения, что может привести к нежелательным последствиям.
Anthropic создала внешний барьер, который блокирует попытки взлома на начальной стадии запроса. Особое внимание уделено техникам, способным полностью отключить защиту моделей. Для этого была создана система фильтрации, которая обучалась на тысячах пар допустимых и недопустимых запросов и ответов. Эта система распознает и блокирует потенциально опасные взаимодействия.
Технология Anthropic успешно прошла испытания, показав высокую эффективность. Однако она не лишена недостатков и требует дополнительных вычислительных мощностей. Эксперты уверены, что гонка между разработчиками и злоумышленниками продолжится, и важно постоянно обновлять защитные механизмы.
Anthropic продолжает усовершенствовать свою технологию и приглашает исследователей к тестированию. Главное, чтобы барьер был достаточно высок, чтобы отпугнуть потенциальных злоумышленников.