Ученые из Университета Сент-Луис представили новый метод атаки на LLM-модели, который трудно обнаружить обычными системами защиты. Они выявили уязвимости в методе рассуждений Chain-of-Thought (CoT), который помогает моделям решать сложные задачи поэтапно для повышения точности ответов.
Этот метод может быть незаметно изменен с помощью скрытых триггеров, которые активируются только при определенной последовательности рассуждений. Это делает атаку практически…
