Журнал "Information Security/ Информационная безопасность" #5, 2019

После обучения моделей и получения векторных представлений клиентов мы провели анализ того, насколько расстояние между векторными пред- ставлениями клиентов кор- релирует с мошенниче- ством. Полученные результаты еще раз свидетельствуют о том, что важно изучать современные методы машинного обучения из раз- ных областей, так как при должном переосмыслении и транспонировании они могут успешно применяться и показывать хорошие результаты в других сферах. эмбеддинга по ряду ATM/POS не является проблемой, так как такие устройства-"слова" просто исключаются из "предложения" клиента, а оставшихся доста- точно для формирования итого- вого векторного представления. Было обучено две модели эмбеддинга. Одна – по указан- ному выше подходу на данных по транзакциям и клиентов, и не клиентов Сбербанка. А вто- рая – только по транзакциям клиентов Сбербанка, но в эту модель в качестве "слов" были добавлены также IP-адреса под- сетей класса C, с которых кли- енты пользовались интернет- банком. Анализ полученных векторных представлений "слов" Для быстрой валидации полу- ченных векторных представле- ний устройств/IP-подсетей и про- верки того, что векторные пред- ставления ухватили геолока- ционный паттерн, был исполь- зован следующий алгоритм: брался случайный ATM (банку известны их координаты уста- новок) и искались ближайшие к нему соседние ATM по эмбед- дингу. Точка и соседи визуали- зировались на карте по геокоор- динатам. Аналогично по этим же начальным точкам строились самые удаленные АТМ. Процесс повторялся для нескольких десятков точек. Такая валидация позволила наглядно оценить, насколько близко/далеко на карте лежат друг к другу точки, которые близки/далеки на эмбеддинге. Для анализа по IP-адресам сетей класса С с помощью алго- ритма t-SNE была снижена раз- мерность с 50 до 2 (для отобра- жения векторного пространства на плоскости). IP-подсети рас- красили цветом в соответствии c территориальным банком Сбербанка большинства клиен- тов, которые используют дан- ную подсеть. Видно, что в целом образуются хорошие локальные кластеры, а на долю операций IP-подсетей из центральной области (где множество разных цветов и кластер отсутствует) приходится менее 5% от всех операций. В результате можно заклю- чить, что векторные представ- ления "слов" ухватили геолока- ционную сущность, особенно по ATM/POS, хотя никаких геопри- знаков при обучении моделей не использовалось. Анализ векторных представлений клиентов для выявления мошеннических транзакций После обучения моделей и получения векторных представ- лений клиентов мы провели анализ того, насколько расстоя- ние между векторными пред- ставлениями клиентов корре- лирует с мошенничеством. Для этого были взяты кейсы мошенничества (предотвращен- ные ФМ и успешные), а также ложные сработки системы ФМ за определенный период. Было подсчитано расстояние между векторными представлениями отправителя и получателя. Затем все кейсы были сгруппи- рованы на основании получен- ных расстояний в группы – пер- центили расстояний с шагом 10. В каждой группе подсчитано соотношение фродовых тран- закций к легитимным (ложные сработки ФМ). Результаты представлены на рис. 7. На нем отчетливо видно, что близость клиентов в полу- ченном векторном пространстве снижает вероятность мошенни- чества, тогда как большое рас- стояние, наоборот, служит хоро- шим индикатором риска. Цель достигнута В результате применения опи- санного подхода нам удалось достичь запланированной цели: получено векторное простран- ство представления клиентов, в котором расстояние коррелирует с вероятностью мошенничества. Векторные представления клиентов и векторные расстоя- ния между ними были добавле- ны в качестве дополнительных признаков в Pipeline обучения моделей выявления мошенни- ческих переводов. По результатам обучения моделей ФМ векторное рас- стояние включено в итоговый перечень признаков как один из наиболее значимых. Кроме того, еще несколько признаков из векторных представлений клиентов также вошли в число значимых для модели. Внедрение данных признаков позволило повысить общую эффективность системы выявле- ния мошенничества – значитель- но сократить ложные сработки и одновременно немного увели- чить долю выявляемого мошен- ничества. Наличие таких при- знаков особенно важно в усло- виях доминирующего сейчас типа мошенничества под услов- ным названием "самопереводы". При их совершении клиент под воздействием мошенников, использующих методы социаль- ной инженерии, сам переводит средства, и многие признаки антифрод-моделей (появление нового устройства, нестандарт- ное время проведение операций и др.) в этом случае становятся неэффективными. Полученные результаты еще раз свидетельствуют о том, что важно изучать современные мето- ды машинного обучения из раз- ных областей, так как при долж- ном переосмыслении и транспо- нировании они могут успешно применяться и показывать хоро- шие результаты в других сферах. Подобные исследования в под- разделениях кибербезопасности Сбербанка будут активно про- должаться наряду с развитием традиционных моделей ML. l • 33 ТЕХНОЛОГИИ www.itsec.ru Рис. 6. Результат эмбеддинга IP-подсетей класса С при отображении на двухмерное пространство. Цвета – это территориальные банки Сбербанка, клиенты которых используют эти подсети Рис. 7. Соотношение мошеннических транзакций к легитимным (ложные сработки ФМ) в зависимости от расстояния в полученном векторном пространстве Ваше мнение и вопросы присылайте по адресу is@groteck.ru

RkJQdWJsaXNoZXIy Mzk4NzYw