Журнал "Information Security/ Информационная безопасность" #6, 2020
Первая задача, которую призван решить анализ данных в DLP, – это предотвращение утечек. Без технологий анализа, конечно, утечки тоже можно предотвращать, но для этого придется применять слишком много администра- тивных мер и, по сути, всем все запре- тить. Но в достаточно большой компании такой подход может навредить бизнес- процессам. Мы этого не хотим! Поэтому данные следует блокировать избира- тельно, а какие именно и для какого именно пользователя, помогают выяснить технологии анализа. Вторая задача – разметка перехва- ченного архива. Архив перехвата без разметки – это большая куча данных, работать с которой можно только с помо- щью полнотекстового поиска, да и он не всегда помогает. Например, у вас есть номер кредитной карты из 16 цифр, но в переписке он может быть записан в разных форматах, и полнотекстовым поиском в архиве пере- хвата найти его практически невозможно. Но тут на помощь приходит нормальная форма: в Traffic Monitor введен текстовый объект "кредитная карта", который отлав- ливает кредитки, выделяет нормальную форму, снимая любое форматирование, и сохраняет ее в базе данных с привязкой к перехваченному объекту. Еще одно применение разметки архива событий – анализ цепочек событий. На основе такого анализа появляются про- дукты класса UBA (User Behavior Analyt- ics), например InfoWatch Prediction. Они анализируют поведение пользователя через анализ набора генерируемых поль- зователем событий в информационной среде. Хорошо размеченные события могут сигнализировать как о нарушении политик безопасности, так и о рядовых ситуациях. Например, события отправки резюме по почте, посещения сайта поиска работы или сайта оценки работо- дателей система выстраивает в цепочку и помогает определить, насколько высо- ка вероятность увольнения работника. А может быть, кто-то из сотрудников аффилирован с компанией-подрядчи- ком? InfoWatch Prediction умеет выявлять и такие риски. Можно искать аномалии в поведении, такие как аномально боль- шое количество скопированных файлов, говорящее о накоплении информации для будущего слива. Можно отслеживать цепочки событий, применять Machine Learning и прогнозировать риски, можно искать сбои и узкие места в бизнес-про- цессах и вовремя корректировать их с пользой для организации – InfoWatch Prediction сейчас развивается в этом направлении. Примитивы данных Есть очень много способов представ- ления данных. Архивы, например, помо- гают сэкономить место для хранения информации и время ее передачи. Офис- ные форматы хранят текст, изображения, разметку текста и другую метаинфор- мацию в одном файле. Однако быстро к этой информации получить доступ затруднительно, ведь нужно знать фор- мат хранения данных, а ИБ – это область быстрого реагирования. Поэтому в DLP- системе существует богатый набор так называемых экстракторов, их задача – получить примитивы информации из всех используемых в организации фор- матов (текст, изображения, векторная графика и др.). Разумеется, текст – самый простой и удобный для анализа примитив инфор- мации. DLP-системы даже изображения стараются привести к текстовому пред- ставлению с помощью технологии OCR (Optical Character Recognition). С изоб- ражениями работают современные методы Computer Vision, в том числе нейронные сети, которые уже могут многое расска- зать об изображении. Надеемся, в обо- зримом будущем технологии разовьются до такой степени, что позволят получать полнотекстовое описание изображения, такие наработки есть уже сейчас. Не так давно из разряда бинарных в отдель- ный примитив информации перешли векторные изображения, так как мы научились их анализировать как струк- турированные данные. Анализ данных Анализировать данные можно в трех направлениях: смысловом, формальном и содержательном. 1. Для смыслового поиска информации обычно используется классификатор. Данный подход позволяет извлечь в случае утечки из перехваченной информации тематику, не имея точного образца для поиска. 2. При формальном анализе систему в первую очередь интересует то, как инфор- мация оформлена, и уже во вторую – чем она является. Яркий пример такого ана- лиза – регулярные выражения. 3. Содержательные виды анализа зани- маются поиском по образцу. Для их рабо- ты необходимо иметь эталон или несколь- ко эталонов, с которыми и сравнивается анализируемая информация. Классификация данных Классификация может быть применена к данным с признаками, по которым мы можем определять некие группы или тематики данных. Довольно долго клас- сификация не применялась к изображе- ниям, но Computer Vision и увеличение вычислительных мощностей позволили классифицировать и этот вид данных. Вообще основной критерий при создании технологий – максимум качества за минимальное время. При анализе данных 40 • УПРАВЛЕНИЕ Данные в DLP-системе: кладезь информации для руководителя LP-системы (Data Leakage Prevention) давно используются не только для защиты от утечек данных. Экспансивное развитие технологий сменилось интенсивным: DLP-системы начали расти вглубь, улучшая качество перехвата и анализа контента, благодаря этому данные из DLP становятся бесценными для принятия управленческих решений. Это позволяет превратить информационную безопасность в сервис для других подразделений компании, от HR до экономической безопасности. D Сергей Рябов, руководитель группы научно-исследовательской разработки ГК InfoWatch
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzk4NzYw