Ученые из Университета Сент-Луиса показали, как можно взломать большие языковые модели (LLM), чтобы изменить работу нейронных сетей. Они создали атаку под названием DarkMind, которая использует уязвимости в моделях, таких как ChatGPT, GPT-4, O1 и LLaMA-3.
DarkMind добавляет скрытые сигналы в приложения, использующие языковые модели, чтобы атака была незаметной. Это сложно обнаружить даже в приложениях с большим количеством пользователей, потому что она активируется только при определенных сценариях.
Существующие методы защиты не могут обнаружить DarkMind, и атака происходит только после активации. Исследователи установили, что чем лучше модель LLM, тем она более уязвима к таким атакам. Техника DarkMind не требует изменения запросов или алгоритмов, что делает ее простой в использовании, особенно в финансовом и медицинском секторах.
Ученые работают над защитными мерами от подобных атак и призывают разработчиков улучшить механизмы защиты от манипуляций с LLM. Однако компания Microsoft считает, что создать полностью безопасные системы на основе генеративного ИИ невозможно.