Журнал "Information Security/ Информационная безопасность" #5, 2019

В Сбербанке при разра- ботке и развитии собствен- ных моделей команда анти- фрод-экспертов регулярно анализирует тренды мошен- ничества, формулирует гипотезы и проверяет их. Результат – внедрение новых признаков, направ- ленных на повышение эффективности моделей. Наряду с подходами Deep Learning есть и другие методы, позволяющие моде- лям самим создавать при- знаки. К таким подходам относится Entity Embedding. Сбербанк, крупней- ший банк в Центральной и Восточной Европе и один из лидеров по доступным клиентам цифровым сервисам, постоянно находится в фокусе внимания кибермошенников. Любые атаки в этом регионе всегда ориентированы в первую оче- редь на клиентов Сбербанка. В банке реализована эшело- нированная защита всех онлайн-услуг. Она включает в себя ряд защитных механиз- мов: подтверждение операций с помощью одноразовых паро- лей, шифрование трафика, использование встроенных антивирусных решений в при- ложениях и др. Один из ключе- вых элементов этой защиты – система выявления и пред- отвращения мошенничества (система фрод-мониторинга – ФМ). В Сбербанке разработан и внедрен целый ряд моделей с использованием машинного обучения (Machine Learning) – ML-моделей, направленных на противодействие различным аспектам кибермошенничества (выявление мошеннических транзакций в разных каналах, мошеннических групп и их свя- зей и др.), а также ансамбли из этих моделей. Это позволяет удерживать фрод на минималь- ных уровнях при постоянном росте транзакционной активно- сти и появлении новых продук- тов и услуг. Подавляющее большинство работающих в промышленной эксплуатации моделей относят- ся к моделям "традиционной" архитектуры машинного обуче- ния: байесовские сети, гради- ентный бустинг/Random Forest, логистические регрессии, обыч- ные нейронные сети и др. В данной статье мы рассмот- рим менее традиционный для антифрод-индустрии метод, внедрение которого в наши модели противодействия мошенничеству дало суще- ственный прирост эффективно- сти. Традиционные и альтернативные подходы к машинному обучению Подавляющее большинство современных антифрод-реше- ний включает в себя компонен- ты машинного обучения. Обыч- но эти компоненты в своей осно- ве используют признаки, раз- работанные фрод-аналитиками и дата-сайентистами. Соответ- ственно, чем лучше разрабо- танные признаки позволяют описать мошенничество, тем выше эффективность моделей, их использующих. Аналогично и в Сбербанке при разработке и развитии собственных моделей команда антифрод-экспертов регулярно анализирует тренды мошенни- чества, формулирует гипотезы и проверяет их. Результат – внедрение новых признаков, направленных на повышение эффективности моделей. Но существуют и другие под- ходы, в которых на вход моде- лям подаются сырые данные, а они сами в рамках обучения выделяют значимые признаки. Наиболее известные предста- вители такого подхода – модели Deep Learning, например свер- точные (CNN) и рекуррентные (RNN) нейронные сети. В таких областях, как компьютерное зрение, распознавание речи и обработка естественного языка, эти решения превосходят все остальные подходы, включая традиционное машинное обуче- ние. Важно отметить, что во всех перечисленных областях (изоб- ражения, аудиозапись, текст) данные являются слабострук- турированными (Unstructured Data), тогда как задачи выявле- ния мошеннических транзакций в целом решаются с помощью структурированных данных. Условно структурированные данные – это информация, кото- рую можно представить в виде таблицы (строки – элементы наблюдения, столбцы – призна- ки). Сбербанк проводит экспе- рименты по применению CNN- и RNN-моделей в задаче выявления мошенничества. Векторные представления сущностей – Entity Embedding Наряду с подходами Deep Learning есть и другие методы, позволяющие моделям самим создавать признаки. К таким подходам относится Entity Embedding – это обозначение целой группы ML-методов, с помощью которых можно представить различные сущно- сти (например, слова, товары, клиентов) в виде вектора задан- ной размерности. Один из самых известных представите- лей данного класса методов – word2vec, применяемый в зада- чах обработки естественного языка (NLP). Данный метод позволяет по имеющемуся корпусу текстов получить векторные представ- ления слов. Полученные векто- ры обладают важным свой- ством: по расстоянию между 30 • ТЕХНОЛОГИИ Применение методов Entity Embedding в противодействии мошенничеству условиях диджитализации современного мира задача противодействия мошенничеству становится актуальной для всех сфер бизнеса. Если ранее антифрод-решения были прерогативой преимущественно финансового и банковского сектора, то сейчас подобные системы внедряются во многих интернет-ритейлерах (наиболее известные – Amazon, PayPal), различных агрегаторах (Uber, Яндекс.Такси) и множестве других сфер деятельности. В Андрей Пинчук, исполнительный директор Управления противодействия кибермошенничеству Сбербанка

RkJQdWJsaXNoZXIy Mzk4NzYw