Журнал "Information Security/ Информационная безопасность" #6, 2020
"на лету" важно делать это быстро, иначе ИБ-специалист узнает о нарушении слишком поздно. DLP-система перехва- тывает миллионы событий ежедневно, и задержки при анализе такого огром- ного количества перехваченных объектов могут быть критичны для бизнеса. В нашей практике был случай, когда в ходе пилотного внедрения DLP прямо на одной из встреч специалист по без- опасности получил уведомление об утеч- ке критичных данных и буквально сорвался с места, чтобы заняться этим инцидентом. Для работы классификатора необхо- дима размеченная обучающая коллекция, то есть каждый документ в ней должен быть отнесен к одному из представленных классов. Самая простая аналогия – дирек- тории с документами на жестком диске. Далее из представленных документов выделяются признаки (ключевые точки для изображений и термины для текстов), которые отправляются в математическое ядро с привязкой к категориям, а оно обучается на их основе. После того как классификатор обучен, в него можно подавать документы. Процесс анализа схож с обучением: из перехваченного документа извле- каются признаки и подаются в матема- тическое ядро для классификации, в результате работы вычисляется факт принадлежности анализируемых данных к одной или нескольким категориям. Заранее настроить классификатор для любой компании чаще всего не пред- ставляется возможным, ведь работаю- щие на одном рынке компании могут использовать различные наборы тер- минов для одной и той же тематической области. Поэтому при установке DLP производится тонкая настройка класси- фикаторов для повышения качества их работы. В процессе эксплуатации также потребуется донастройка классифика- торов, так как со временем меняются категории или их признаки. Кроме изображений, мы классифици- руем и тексты. Для классификации текс- тов можно использовать много подходов из машинного обучения, InfoWatch использует два: косинусную меру (так называемую БКФ – базу контентной фильтрации) и логистическую регрессию. Для текста признаками являются слова. Слова практически в любом языке имеют формы, при этом конечный смысл текста, в котором эти формы исполь- зуются, меняется не радикально. Поэто- му в наших классификаторах исполь- зуются морфологические словари для нескольких языков (сейчас их 18), при- водя все слова к нормальной форме, что помогает повысить качество клас- сификации. В языках, для которых пока нет словарей, классификаторы работают на точное совпадение. Для повышения точности используется технология исправления опечаток, которая сравни- вает слова с известными терминами и может исправить одну опечатку. Копирайтный анализ Копирайтный анализ можно предста- вить как поиск фрагментов эталонов в анализируемых данных, в InfoWatch Traffic Monitor реализовано несколько видов такого анализа. Все они работают по схожему принципу: в систему загру- жаются эталонные документы, затем каждый перехваченный кусок инфор- мации сравнивается с эталоном. Каждый вид копирайтного анализа решает свою задачу и обычно работает только с одним примитивом данных. При этом эталонных данных может быть много, в нашей практике заказчики загружали в качестве эталонов до 90 тыс. доку- ментов. Выделяются несколько видов копирайтного анализа. 1. Классический копирайтный анализ в качестве эталонов принимает текст, так или иначе извлеченный из разных форматов, и анализирует только текс- товые примитивы. В результате DLP- система видит релевантность, то есть сколько процентов эталона содержит анализируемый документ, и разметку этих кусков, позволяя подсветить их в интерфейсе пользователя. 2. Копирайтный анализ для бинарных данных работает по тем же принципам, но возвращает только релевантность. Поскольку возможности данной техно- логии все же ограниченны, мы решили пойти дальше в их развитии. 3. Для растровых графических данных тоже существует копирайтный анализ, но здесь крайне важен баланс между скоростью и функциональными возмож- ностями. В итоге у нас получилось реа- лизовать алгоритм, сравнимый по скоро- сти с текстовым копирайтным анализом (получилось избавиться от зависимости скорости анализа от количества эталон- ных изображений, что для компьютерного зрения редкость), не зависящий от фор- мата и разрешения изображения, но зависящий от ориентации. Однако мы не могли детектировать, например, повер- нутое на 90 град. изображение. Но из этой ситуации нашелся выход: так как число эталонов не ограничено, то в каче- стве эталонов добавляются все варианты поворота изображения. 4. Копирайтный анализ для векторных изображений выделяет графические примитивы и оценивает их взаимное расположение в эталоне, что позволяет перехватывать в том числе и фрагменты векторных изображений. 5. Существуют и специализированные виды копирайтного анализа, созданные для решения узких, но очень частых задач заказчиков. В качестве примера можно привести детектор эталонных бланков: его задача – детектировать заполненные анкеты, приняв в качестве эталона пустые бланки, а также читать заполненные поля. Это оказалось неза- менимым инструментом для случаев, когда анкетные данные – один из глав- ных цифровых активов бизнеса. 6. Детектор эталонных печатей поз- воляет в качестве эталонов задать круг- лые или треугольные печати и в даль- нейшем искать их на сканах или фото формата А4. 7. Поиск картинки в картинке, часто применяемый как детектор кредитных карт. Детектор пытается найти эталонное изображение в анализируемых данных или более узко – поиск логотипов пла- тежных систем. В InfoWatch Traffic Monitor эта технология представлена графиче- ским объектом "кредитная карта". В широкое применение эту технологию мы пока не выпускаем, поскольку ско- рость ее работы сильно зависит от коли- чества эталонов, в то время как скорость работы других детекторов практически не деградирует с ростом количества эталонных документов. Заключение DLP – это сложные системы с широки- ми возможностями, и успешность их экс- плуатации во многом зависит от того, насколько грамотно вендор произвел тонкие настройки у заказчика. Рынку DLP-решений уже около двадцати лет, он считается сформированным, но иногда можно услышать мнение, что сфера DLP зашла в тупик. Но это далеко не так! Реальные нарушения, критичные для непрерывности бизнеса и поддержания его эффективности, как правило, нахо- дятся на периферии бизнес-процессов. Задачи заказчиков постоянно эволю- ционируют, меняются каналы передачи, тематики, документы и данные, которые нужно защищать. Чего стоил один только массовый переход на удаленку в этом году, приведший к необходимости обес- печивать кибербезопасность и защиту от утечек в новых условиях! За последние годы технологии анализа в DLP сделали большой шаг вперед. Теперь можно анализировать взаимо- действие с партнерами или конкурентами, строить графы связей, выявлять подо- зрительные паттерны, определять группы неформальных лидеров, вовремя и гра- мотно реагировать на риски и многое другое. Из этих технологий вырастают новые применения DLP-систем, которые позволяют решать широкий спектр биз- нес-задач, выходящих далеко за пределы информационной безопасности. Подроб- нее о технологиях анализа и бизнес- задачах, которые не относятся напрямую к ИБ, но решаются с помощью DLP, мы рассказывали на вебинаре "Ваши данные глазами DLP" 1 . l • 41 УПРАВЛЕНИЕ www.itsec.ru Ваше мнение и вопросы присылайте по адресу is@groteck.ru 1 https://www.infowatch.ru/resources/webinar/03-12-2020/?utm_source=itsec
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzk4NzYw