Мастера тьмы: манипулятивная атака на LLM

Ученые из Университета Сент-Луиса показали, как можно взломать большие языковые модели (LLM), чтобы изменить работу нейронных сетей. Они создали атаку под названием DarkMind, которая использует уязвимости в моделях, таких как ChatGPT, GPT-4, O1 и LLaMA-3.

DarkMind добавляет скрытые сигналы в приложения, использующие языковые модели, чтобы атака была незаметной. Это сложно обнаружить даже в приложениях с большим количеством пользователей, потому что она активируется только при определенных сценариях.

Существующие методы защиты не могут обнаружить DarkMind, и атака происходит только после активации. Исследователи установили, что чем лучше модель LLM, тем она более уязвима к таким атакам. Техника DarkMind не требует изменения запросов или алгоритмов, что делает ее простой в использовании, особенно в финансовом и медицинском секторах.

Ученые работают над защитными мерами от подобных атак и призывают разработчиков улучшить механизмы защиты от манипуляций с LLM. Однако компания Microsoft считает, что создать полностью безопасные системы на основе генеративного ИИ невозможно.

Мастера тьмы: манипулятивная атака на LLM

You May Also Like

Как украсть личность за 90 секунд?

Сбербанк переходит на отечественную систему удаленного доступа

+1 840 841 25 69