Метка: LLM

  • Google Sec-Gemini: нейросетевой защитник от киберугроз

    Google Sec-Gemini: нейросетевой защитник от киберугроз

    Компания Google представила новую большую языковую модель Sec-Gemini v1, которая помогает улучшить работу в области кибербезопасности при использовании искусственного интеллекта. Этот новый помощник может анализировать информацию и предоставлять данные о киберугрозах практически в реальном времени.

    Sec-Gemini получает информацию из различных источников, таких как Google Threat Intelligence, открытая база уязвимостей и Mandiant Threat Intelligence. Недавно был проведен тест, который показал, что Sec-Gemini работает на 10,5% лучше, чем другие подобные модели.

    Google считает, что развитие кибербезопасности на основе искусственного интеллекта возможно только совместными усилиями. Поэтому новая модель Sec-Gemini будет доступна ограниченному числу исследователей и организаций для того, чтобы помочь им бороться с киберугрозами.

  • Необходимость пересмотра Red Teaming для искусственного интеллекта

    Необходимость пересмотра Red Teaming для искусственного интеллекта

    На мероприятии DEF CON 32 провели исследования по проверке безопасности искусственного интеллекта. Они показали, что текущий метод оценки не дает точной картины. Эксперты предлагают создать систему, подобную CVE, которая учитывает цель использования анализируемых объектов.

    На мероприятии приняли участие около 500 добровольцев с опытом аудита больших языковых моделей. За выявление недочетов им были выплачены премии на сумму $7850.

    Организаторы пришли к выводу, что метод Red Teaming для проверки ИИ нужно улучшить. Проблемой является недостаточная документация по языковым моделям, которая также различается по целям использования.

    Без учета цели и ограничений модели результаты проверок могут быть ошибочными. Недостаток общих критериев оценки может привести к противоречивым выводам.

    Рост и развитие искусственного интеллекта создают новые риски, но пока нет ясного понимания того, как их тестировать и обеспечивать защиту.

    Эксперты считают, что обеспечение безопасности языковых моделей — это постоянный процесс. Эти системы могут ошибаться, быть предвзятыми из-за неправильного обучения и уязвимыми к атакам. Их невозможно защитить от взлома, но можно сделать его более сложным и уменьшить последствия.

    Организаторы Generative Red Team призывают ИИ- и ИБ-сообщества работать вместе для решения проблем. В противном случае техническая революция может привести к появлению ненадежных ИИ-инструментов, как, например, DeepSeek.

  • Anthropic победила в битве с взломщиками

    Anthropic победила в битве с взломщиками

    Американская компания Anthropic разработала новый способ защиты больших языковых моделей от попыток обойти их защиту. Эти модели обучены отказывать в ответах на опасные или неэтичные запросы. Однако существует много способов обойти эти ограничения, что может привести к нежелательным последствиям.

    Anthropic создала внешний барьер, который блокирует попытки взлома на начальной стадии запроса. Особое внимание уделено техникам, способным полностью отключить защиту моделей. Для этого была создана система фильтрации, которая обучалась на тысячах пар допустимых и недопустимых запросов и ответов. Эта система распознает и блокирует потенциально опасные взаимодействия.

    Технология Anthropic успешно прошла испытания, показав высокую эффективность. Однако она не лишена недостатков и требует дополнительных вычислительных мощностей. Эксперты уверены, что гонка между разработчиками и злоумышленниками продолжится, и важно постоянно обновлять защитные механизмы.

    Anthropic продолжает усовершенствовать свою технологию и приглашает исследователей к тестированию. Главное, чтобы барьер был достаточно высок, чтобы отпугнуть потенциальных злоумышленников.