Журнал "Information Security/ Информационная безопасность" #5, 2020

ственных чисел, занял около 300 Гбайт на HDD. Для примера мы визуализиро- вали 1 млн случайно выбранных вершин на плоскости с помощью алгоритма сни- жения размерности umap. В целом даже на 1 млн случайных вершин видны кла- стеры плотно взаимодействующих вер- шин (см. рис. 5). Построение embedding на срезах графа и применение в моделях скоринга переводов С учетом времени, которое требуется для получения embedding среза графа (4-5 дней), мы решили поступить сле- дующим образом: было выбрано четыре среза графа на конец каждого месяца (апрель, май, июнь, июль). Для каждого среза рассчитывался его embedding. Затем векторные представления из пре- дыдущего месяца добавлялись в каче- стве дополнительных признаков к вер- шинам из переводов обучающей выбор- ки следующего месяца (см. рис. 6). После добавления векторных представ- лений к вершинам в переводах вычис- лялись близость между вершинами, а для этого использовались две функ- ции – косинусная близость и скалярное произведение. Доля покрытия переводов, когда и для отправителя, и для получателя нашлись соответствующие им embedding, при таком подходе составила около 80%. Непокры- тые переводы возникают из-за появления новых клиентов/реквизитов, которых не было в графе. Для непокрытых переводов значения признаков embedding заполня- лись NULL (алгоритмы градиентного бустинга умеют работать с отсутствую- щими значениями напрямую). Полученная таким образом обучающая выборка содер- жит в себе результаты GRL-моделей. Результаты Сравнив результаты моделей (без обогащения GRL-моделями и с обога- щением) на валидационной отложенной по времени выборке, мы получили сред- ний прирост Gini в 1,5–2%. В отдельных случаях прирост в точности работы модели при заданной полноте составлял 10–15% (см. рис. 7). Мы также рассмотрели, какие из добавленных GRL-признаков по резуль- татам отбора попали в финальную модель и на каких позициях. Оказалось, что сами по себе embedding вершины не информативны для модели выявления мошеннических транзакций (не прошли отбор признаков), но близости между вершинами, участвующими в транзак- циях, вошли в пять наиболее значимых признаков моделей. И это при том, что в модели и так в явном виде присут- ствуют признаки, описывающие преды- дущие взаимодействия между отправи- телем и получателем (число операций, длительность связи). Разработанный подход может быть использован в real-time-моделях, потому что embedding рассчитываются заранее, а для скоринга транзакции на потоке дополнительно нужно по участвующим в транзакции вершинам найти соответ- ствующие им embedding, а также рас- считать скалярное произведение и коси- нусную меру между найденными векто- рами. Все это при использовании in- memory-базы данных может быть выпол- нено очень быстро и не влиять на SLA моделей/фрод-мониторинг. Выводы и перспективы развития Полученные результаты показывают, что применение методов Graph Repre- sentation Learning в задачах противодей- ствия мошенничеству дает существенный прирост эффективности, и это даже при условии, что базовые графовые эври- стики использовались в моделях фрод- мониторинга. Если графовые данные не используются, то эффект от GRL-методов будет еще сильнее. При этом суще- ствующие инструменты Оpen Source уже достигли той степени зрелости, когда при минимальных доработках они поз- воляют строить эмбеддинги для очень больших графов (сотни миллионов вер- шин и миллиарды ребер). Соответствен- но, для внедрения подобных технологий требуются минимальные затраты вычис- лительных и временных ресурсов. Сейчас мы проводим миграцию раз- работанного решения для промышлен- ной эксплуатации и регулярного расчета embedding и по результатам обновим процессы обучения и сами модели фрод- мониторинга дополнительными GRL-при- знаками. У нас также в планах после вывода решения в промышленную экс- плуатацию провести еще серию экспе- риментов в разных направлениях: l попробовать другие размерности embedding, функций потерь и мер бли- зости, доступных в PBG; l при построении графа учитывать не только транзакционные, но и иные типы связей, а также проводить фильт- рацию по ребрам/учиты- вать суммы как дополни- тельные веса ребер; l воспользоваться пока экспериментальной функ- цией PBG, которая поз- воляет к вершинам доба- вить описывающие их векторы (например, воз- раст, оборот и пр.), то есть использовать реше- ние уже в supervised- виде. Вероятно, в результате будут найдены парамет- ры, которые дадут еще больший положительный эффект для моделей. Кроме того, мы также исследуем применимость уже полученных embed- ding и для других задач противодействия мошенничеству. Например, используя эту информацию, можно провести кла- стеризацию клиентов, отметить вершины по уже известным мошенникам и опре- делить кластеры с высокой долей их концентрации. Другие вершины в данном кластере могут быть еще не известными нам мошенниками. l • 45 ТЕХНОЛОГИИ www.itsec.ru Рис. 7. График зависимости полноты и точности одной из моделей (синяя – без использования PBG, красная – с использованием PBG) Рис. 6. Сопоставление embedding вершин на обучающую выборку Ваше мнение и вопросы присылайте по адресу is@groteck.ru