Журнал "Системы Безопасности" № 1‘2018

A L L - O V E R - I P n w w w . a l l - o v e r - i p . r u 68 (FLASH и RAM), необходимая мощность гра- фических ядер, чтобы решать задачи в реальном времени, и поддержка процессора ARM, на который также возлагается опреде- ленная часть вычислений (начиная от деко- дирования картинки и заканчивая простей- шими алгоритмами, которые накладываются поверх нейронных сетей или выполняют пре- добработку). Реальные возможности нейронных сетей на борту камер Какие задачи нейронные сети смогут решать, находясь на борту камер, а какие – нет? 1. Распознавание лиц. Нейросетевые детек- торы лиц могут найти лицо по части лица, то есть даже по практически полностью загоро- женному лицу. Но можно ли их применить на камере? Нет, так как даже на обычных ком- пьютерах, на CPU в Real-Time это практиче- ски нереально, поиск лиц работает только на видеокартах. Зато на камере можно использовать детектор на базе старых алгоритмов, например Виолы-Джонса 2001 г. Распознавание в реальном времени на каме- рах также невозможно. Биометрические шаблоны по лицу строятся на стандартных процессорах со скоростью от 250 до 2000 мс. На камерах это можно будет сделать, только когда они сменят свою архитектуру. Однако можно проводить распознавание в близком к реальному времени – выбирать из трека лиц одно с наилучшим ракурсом и в процессе с низким приоритетом, чтобы не влиять на качество алгоритма детектиро- вания лиц, потихоньку строить для него био- метрический шаблон. Это работает хорошо, но небыстро – шаблон строится от 20 до 80 с, время зависит от глубины нейронной сети, с помощью которой распознаются лица. Однако если стоит задача сохранить список тех, кто был на объекте, а не сразу выдавать результат оператору, кто именно пришел, то такая скорость не проблема. 2. Видеоаналитика. Нейросетевой детектор людей и машин на борту камеры сделать не получится – примерная скорость работы текущих алгоритмов 3–5 кадр/с на очень хорошей видеокарте. 3. Реидентификация. Построить шаблон для распознавания человека (по силуэту, одежде и пр.) на камере можно в таких же условиях, в каких применяется построение шаблонов в распознавании лиц, поэтому решить задачу реидентификации с помощью нейронных сетей на борту камеры можно, но не в реаль- ном времени. 4. Нейросетевой детектор оставленных пред- метов. Такой распознаватель можно внед- рить на камеру, так как в оставленных пред- метах без модели фона не обойтись, а она отлично работает на камере. И далее нейро- нная сеть будет заниматься исключительно классификацией уже найденного моделью фона объекта. 5. Обнаружение СИЗ. Можно использовать детектор на базе моделей фона, а сверху накладывать нейросетевой классификатор СИЗ – человек в защитной одежде или обыч- ной. Таким образом, нейросетевые детекторы для всех задач недоступны на текущем уровне развития мобильных процессоров. Но какие- то нейросетевые классификаторы/распозна- ватели могут быть использованы уже сейчас на процессорах, которые производители камер внедряют в свои устройства. Второй виток нейросетевой революции Текущее положение дел в области нейронных сетей характеризуют четыре основных направ- ления, которые наблюдаются в мире: 1. Глубокие соревнующиеся сети для имитации данных (GAN, Domain Transfer Learning, Zero- Shot Learning). Существенно помогают решить проблему с дополнительным созданием обучающей выборки для нейронных сетей, которые уже занимаются распознаванием. 2. Интерпретация динамической визуальной информации на естественном языке (Action Detection and Prediction, Video Annotation, Video and Language Understanding, Text-to-Video, VQA). Это то, чего все ждут, – Activity and Beha- vior Recognition, а именно – детекторы драк, объятий, рукопожатий, бега и др. Результаты в понимании поведения улучшились уже в два раза по сравнению с алгоритмами двухлетней давности. 3. Обучение глубоких сетей как активных аген- тов (Reinforsement Learning, Lifelong Learning). Имеется в виду обучение сети без учителя. 4. Глубокое обучение с использованием струк- турных моделей, баз знаний и программ логи- ческого вывода (Graph Structured CNN, Deep Visual Reasoning). Был совершен большой рывок в сфере Activity and Behavior Recognition. Пони- мание сцены – это самое высокоинтеллектуаль- ное, что может быть в системе видеонаблюде- ния. Компьютер будет описывать то, что про- исходит, например "человек в красной куртке прошел в здание, повернул направо и зашел в конкретную комнату". Это новый уровень взаи- модействия человека с компьютером и понима- ния компьютером того, что происходит на сцене. 5. GANS (Generative Adversarial Networks). Это сети, которые могут сделать из чего угодно что угодно (из зимы лето и обратно, поменять местами зебр с лошадьми и т.д.) и учатся гене- рировать определенные объекты. n февраль – март 2018 www.secuteck.ru Ваше мнение и вопросы по статье направляйте на ss @groteck.ru Понимание поведения Понимание сцены

RkJQdWJsaXNoZXIy Mzk4NzYw