Журнал "Information Security/ Информационная безопасность" #1, 2025

Разговоры о безопасно- сти ИИ систем появились недавно, с 2022 г., хотя пер- вые научные работы по ата- кующим методам (напри- мер, adversarial examples) появились еще в 2014 г. В сфере защиты систем с ИИ принято различать две отдельные, но тесно связан- ные области: защита от внешних рисков (AI Security) и внутренних рисков (AI Safety). Современные исследова- ния, в частности работа команды Microsoft, описав- шей опыт проведения тестов более ста продуктов с гене- ративным ИИ, показывают, что атаки на ИИ требуют нетривиального подхода и существенно отличаются от классического пентеста при- ложений. понентом, определяющим каче- ство и функциональность конеч- ного продукта. 2. Подготовка к эксплуатации обычной системы занимает относительно короткий проме- жуток времени – чаще всего минуты или часы, затраченные на компиляцию или сборку про- граммы. В случае ИИ подготов- ка может значительно затяги- ваться, так как включает в себя ресурсоемкий процесс обучения моделей, который требует использования GPU и может занимать от нескольких часов до недель. Это увеличивает не только временные и финансо- вые затраты, но и приводит к возникновению необходимо- сти отдельного обеспечения безопасности системы на дан- ном этапе. 3. Наконец, эксплуатация тра- диционной системы предпола- гает стабильное и предсказуе- мое поведение при неизменном коде, точечное исправление выявленных ошибок и понятную логику получаемых результатов. Системы с ИИ ведут себя иначе: результаты их работы веро- ятностны и менее предсказуе- мы, а исправление ошибок часто требует полноценного переобучения. Логика решений, принимаемых моделью, зача- стую непрозрачна и неочевидна даже для самих разработчиков, что усложняет выявление и устранение уязвимостей и ошибок. Эти фундаментальные раз- личия делают подходы к обес- печению безопасности систем с ИИ принципиально иными, требующими особых методов и инструментов защиты, отлич- ных от традиционных. Машинное обучение и генеративный ИИ – в чем разница Машинное обучение суще- ствует около 70 лет, но активно приносить пользу бизнесу стало лишь в последние 10–15 лет. Разговоры о безопасности ИИ систем появились недавно, с 2022 г., хотя первые научные работы по атакующим методам (например, adversarial examples) появились еще в 2014 г. С развитием генеративного ИИ, особенно больших языко- вых моделей (LLM), риски без- опасности значительно возрос- ли. Если раньше угрозы каса- лись простых моделей, таких как классификация изображе- ний, то теперь атаки затраги- вают логику принятия решений в нейросетях. Первоначально фокус был на атаке с помощью adversa- rial examples – минимальных изменениях данных, вызываю- щих ошибочную классифика- цию. С развитием атак их стало гораздо больше, и они стали обходить защитные механизмы. Со временем фокус атак сме- стился с задач классификации и распознавания образов на генеративные модели. Причина в том, что генеративные моде- ли, включая LLM, не просто классифицируют или распо- знают данные – они порождают новый контент, используя для этого знания, извлеченные из обучающих данных. Это откры- ло совершенно новые возмож- ности для злоумышленников, позволив им влиять не просто на результат классификации, а на саму суть выводов, которые делает модель. Стали возмож- ны такие атаки, как промпт- инъекции (prompt injections), поз- воляющие манипулировать поведением моделей, внедряя в запросы скрытые инструкции. Эти инструкции позволяют зло- умышленнику заставить модель сгенерировать нежелательный контент или выдать внутреннюю информацию, заложенную при обучении. AI Security и AI Safety В сфере защиты систем с ИИ принято различать две отдель- ные, но тесно связанные обла- сти: защита от внешних рисков (AI Security) и внутренних рисков (AI Safety). AI Security охватывает защиту ИИ-систем от умышленных дей- ствий внешних нарушителей, стремящихся получить доступ к конфиденциальной информа- ции или скомпрометировать ее целостность и доступность. Здесь акцент сделан на пред- отвращении таких специфиче- ских атак, как отравление дан- ных, внедрение скрытых зави- симостей или бэкдоров, а также промпт-инъекции. Современные исследования, в частности рабо- та команды Microsoft, описав- шей опыт проведения тестов более ста продуктов с генера- тивным ИИ, показывают, что атаки на ИИ требуют нетриви- ального подхода и существенно отличаются от классического пентеста приложений: необхо- димы автоматизация и учет человеческого фактора для успешного выявления новых угроз и слабых мест. С другой стороны, AI Safety направлен на предотвращение непреднамеренного вреда, вызываемого самой системой ИИ из-за ее внутренней слож- ности, непрозрачности и веро- ятностной природы. Ключевые риски здесь связаны с тем, что поведение нейросетей и осо- бенно генеративных моделей плохо поддается интерпретации и контролю. Это создает про- блемы непредсказуемости и потенциально опасного поведе- ния моделей, особенно в кри- тически важных или чувстви- тельных сценариях. Эксперты подчеркивают необходимость строгих процессов управления жизненным циклом моделей и прозрачности решений, при- нимаемых ИИ. При этом разделение на внешние и внутренние риски часто оказывается условным, поскольку для эффективного управления угрозами необхо- димо объединять подходы AI Security и AI Safety в рамках общей стратегии защиты. Жизненный цикл моделей ИИ – где скрываются риски Погрузимся в AI Security чуть глубже. Процесс создания и эксплуатации моделей искус- ственного интеллекта включает множество этапов, на каждом из которых возникают специ- фичные угрозы безопасности. Уязвимости скрываются не только в модели, но и в данных, инфраструктуре, библиотеках и взаимодействиях с конечными пользователями. На старте жизненного цикла модели важны подготовка и сбор данных. Качество и без- опасность данных определяют поведение модели, и главная угроза на этом этапе – отрав- ление данных. Злоумышлен- ник может внедрить зловред- ные примеры, создавая скры- тые зависимости или бэкдо- ры, которые активируются позже. На этапе разработки и обуче- ния риски становятся сложнее. Важно выбирать безопасные инструменты и библиотеки, так как скомпрометированные биб- лиотеки Open Source могут поз- волить хакерам проникнуть в систему. Модели могут содер- жать программные и логические закладки, а также быть исполь- зованы для транспортировки вирусов (например, EvilModel). • 55 Безопасная разраБотка www.itsec.ru