Журнал "Системы Безопасности" № 5‘2023
Ц И Ф Р О В А Я Т Р А Н С Ф О Р М А Ц И Я , И И , И Н Т Е Р Н Е Т В Е Щ Е Й 19 вывод напрашивается сам собой: "спасение уто- пающих – дело рук самих утопающих". нет смысла ждать милости от NIST и испытательных лабораторий других зарубежных университе- тов. Целесообразно привлекать к созданию испытательных лабораторий отечественных исполнителей, которым доверяет тот или иной потребитель технологии нейросетевого распо- знавания лиц. Задача создания открытого программного обес- печения под тестирование не является сложной. Она вполне посильна кооперации промышлен- ных организаций, которые договорились о про- токолах тестирования. национальный стандарт (например, стандарт технического комитета № 164 "искусственный интеллект") как раз и является некоторым компромиссом и чередой взаимных уступок производителей. главное, чтобы код средства тестирования был открытым (общедоступным). Сказанное поясним рис. 1. Обычно про- граммный продукт того или иного произво- дителя строится на поиске лиц в видеокадре. в левой части рисунка приводится найден- ное в кадре лицо. Обнаруженный фрагмент с лицом приводится, например, к изображе- нию 64х64 пк. Каждый пиксель является вектором входных данных для сверточной многослойной нейронной сети [1, 2]. услов- ная сверточная нейросеть отображена в пра- вой части рис. 1. Основная задача любых нейронных сетей – это обогащение входных сырых данных. нейросеть в правой части рис. 1 заранее обучена сверты- вать вектор сырых входных биометрических данных длиной в 4 096 пк в более короткий вектор из 256 биометрических параметров лица человека. Обучение нейросети выполняется примерно на 20 примерах образа "свой" (20 разных изобра- жений лица одного и того же человека). на 20 примерах удается вычислить математи- ческое ожидание каждого из 256 контролируе- мых биометрических параметров, а также их стандартное отклонение. в этих условиях как основа, решающее правило для каждого примера, может быть использова- но расстояние Евклида: (1), где E(.) – оператор вычисления математическо- го; σ (.) – оператор вычисления стандартного отклонения, j – номер примера в обучающей выборке. Само решающее правило сводится к выбору допустимых порогов изменения расстояний (1). Обычно пороги выбирают таким образом, чтобы все примеры в обучающей выборке "свой" принимались. Описанная выше технология не является экзо- тикой, это фрагмент машинного обучения. Под задачу оценки качества машинного обучения уже существует международный стандарт, который в ближайшее время будет гармонизован и введен в действие на терри- тории России [3]. Решение проблемы обеспечения конфиденциальности содержания "рабочих" и "тестовых" баз биометрических образов Отметим, что открытый код средства тестирова- ния связан с тестируемым коммерческим продук- том только через длину вектора выходных дан- ных сверточной нейросети. То есть от создателя коммерческого продукта потребуется добавить в тестируемую версию его продукта несколько дополнительных строк кода. Эти строки должны формировать для средства тестирования файл со значениями выходных векторов для 20 примеров образа лица человека. Доработка программного обеспечения под внешнее независимое тестиро- вание минимальна. Для тестирования продукта его исходный код не нужен (полностью сохра- няются авторские права производителя на код его продукта), если сертификация касается толь- ко обеспечиваемых приложением вероятностей ошибок первого и второго рода. При наличии тестового программного обес- печения с открытым кодом сама тестовая база может быть любой, потребитель имеет возмож- ность формировать ее сам, одновременно обеспечивая ее конфиденциальность. Разработ- чики открытого кода тестового программного обеспечения должны пользоваться своей тесто- вой базой, с которой они вольны поступать как угодно. Разработчики могут как сохранить, так и уничтожить после отладки продукта собствен- ную отладочную базу лиц. При такой постановке задачи потребитель про- граммного продукта получает возможность выполнять самостоятельно тестирование каче- ства всех предлагаемых ему коммерческих решений. При этом он сможет использовать свои собственные "рабочие" базы, по которым в буду- щем должен будет выполняться поиск того или иного биометрического образа. нет необходи- мости передавать уже имеющиеся у потребителя "рабочие" базы сторонним тесторам. в ряде слу- чаев обеспечение конфиденциальности биомет- рических образов является принципиально важ- ным, например сохранение конфиденциально- сти базы лиц людей, уже когда-то преступивших закон, когда-то находившихся под следствием и отбывших наказание за содеянное. Решение проблемы увеличения объема тестовых баз морфингом дополнительных образов (ГОСТ Р 52633.2) Обычно стремятся к тому, чтобы объем тестовой базы был примерно в 30 раз больше, чем ожи- даемая вероятностная характеристика ошибок второго рода (ложное принятие образа "чужой" как образа "свой"). например, если для некото- рого коммерческого продукта заявлена веро- ятность ошибок второго рода P 2 ≈ 0,005 (дове- рительная вероятность – 0,995), то для провер- ки этого заявления потребуется тестовая база лиц "чужой" объемом не менее 60 тыс. тестовых биометрических образов [4]. Очевидно, что NIST (опираясь на госбюджетное финансирование Сша) всегда сможет заранее сформировать тестовую базу любого объема под заявленные достаточно высокие веро- ятностные характеристики коммерческих про- дуктов. Проблема высокой стоимости форми- рования больших тестовых баз биометрических образов известна давно, именно из-за нее руководство обычных производителей не соз- дает собственные испытательные лаборатории качества коммерческих продуктов нейросетево- го распознавания образов. Такая проблема стоит для всех зарубежных уни- верситетов и производителей, кроме россий- ских и белорусских. в 2010 г. принят нацио- нальный стандарт России гОСТ Р 52633.2 [5], регламентирующий формирование синтетиче- ских векторов образов-потомков, полученных из векторов реальных образов-родителей. Общий подход к расширению тестовой базы иллюстрируется рис. 2. Если руководствоваться требованиями отече- ственного стандарта [6] формирования баз биометрических образов, то каждый образ дол- жен быть представлен 20 и более примерами. Это требование обусловлено тем, что на каж- дом образе тестовой базы мы должны иметь возможность обучить свою нейросеть, напри- мер опираясь на расстояние Евклида (1). Как результат вместо одного изображения лица человека в тестовой базе появляется 20 изоб- ражений обучающей выборки. на рис. 2 эта ситуация поясняется для лица-1 и лица-7 www.secuteck.ru октябрь – ноябрь 2023 СПЕЦПРОЕКТ РЕшЕния на ОСнОвЕ иСКуССТвЕннОгО инТЕллЕКТа Рис. 2. Морфинг – размножение реальных биометрических образов лиц людей (образов- родителей) синтетическими биометрическими образами–потомками
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzk4NzYw