Программист Пол Батлер придумал новый способ скрыть данные в символах Unicode, включая эмодзи. Он объяснил в своем блоге, как можно использовать кодировку для встраивания скрытых сообщений в тексте, чтобы они оставались незаметными для большинства систем. Этот метод открывает возможности обойти фильтры модерации и скрыть информацию.
Unicode представляет текст как последовательности кодовых точек, каждая соответствует символу. Некоторые кодовые точки, например, селекторы вариаций, могут изменить вид символа незаметно. Есть 256 таких селекторов, и они сохраняются в тексте по стандарту Unicode, даже если система их не понимает.
Батлер предложил кодировать данные, связывая их с селекторами вариаций. Таким образом, можно скрыть данные в одном символе. Последовательность селекторов позволяет закодировать целые сообщения, которые не видны при обычном просмотре текста.
Этот метод вызывает опасения. Киберпреступники могут использовать его для обхода фильтров, внедряя запрещенный контент в безобидные сообщения. Также сложнее обнаружить вредоносные данные в чатах, так как скрытые символы выглядят обычно.
Кроме того, метод можно использовать для скрытой маркировки информации. Отправляя текст с уникальными вариациями разным пользователям, можно узнать, кто утек информацию. Это вызывает вопросы о конфиденциальности и защите информаторов.
Интересно, что даже продвинутые языковые модели не всегда расшифровывают скрытые данные. Батлер провел эксперименты и выяснил, что некоторые модели не пытаются их расшифровать, хотя другие справляются.
Для наглядности Батлер создал инструмент, позволяющий пользователям закодировать текст в эмодзи и другие символы Unicode. Внешне они не отличаются от обычных символов, но содержат скрытую информацию. Инструмент доступен для всех, что может привести к экспериментам или злоупотреблению.