Ученые из Университета Сент-Луис представили новый метод атаки на LLM-модели, который трудно обнаружить обычными системами защиты. Они выявили уязвимости в методе рассуждений Chain-of-Thought (CoT), который помогает моделям решать сложные задачи поэтапно для повышения точности ответов.
Этот метод может быть незаметно изменен с помощью скрытых триггеров, которые активируются только при определенной последовательности рассуждений. Это делает атаку практически неразличимой для стандартных механизмов обнаружения.
Новая атака под названием DarkMind отличается от предыдущих методов тем, что не требует изменения запросов пользователей или переобучения моделей. Она встраивается в код кастомизированных моделей и остается незамеченной до момента активации.
Исследование показало, что более сложные языковые модели более уязвимы к таким атакам, что противоречит общему мнению. DarkMind успешно воздействовала на модели, работающие с математическими расчетами, символической логикой и даже здравым смыслом.
Эти атаки особенно опасны в критически важных системах, где используются LLM, таких как финансовые и медицинские приложения. Разработчики DarkMind уже работают над механизмами защиты от таких атак, чтобы обеспечить безопасность использования ИИ в различных отраслях.
В будущем планируется исследовать другие уязвимости LLM, такие как отравление диалогов и скрытая манипуляция инструкциями. Ранее было обнаружено, что нейросети могут обмениваться зашифрованными сообщениями, оставляя часть рассуждений скрытыми.