Журнал "Системы безопасности" #5, 2019

Н ейронные сети позволяют эффективно распознавать речь. С одной стороны, звук – это последовательность, а с дру- гой – он обладает локальными признаками. Поэтому можно использовать комбинацию сверточной и рекуррентной сетей: сверточными слоями "ловить" паттерны в звуке, а потом на более высоком уров- не обрабатывать их как после- довательность От распознавания к синтезу Мы рассмотрели, как с помощью нейронных сетей можно решать задачи распознавания. Теперь рассмотрим обратный процесс – синтез. Если обратиться к восприятию и творчеству с точки зрения человека, то восприятие – это то, что он увидел, услышал и из чего с помощью мозга извлек концепт. А можно повернуть этот процесс в обратную сторону, когда на основа- нии идеи или концепта человек через мозг подает сигнал на "интерфейсы" и получает низкоуровневый объект – картину, музыкаль- ное произведение и др. Как это работает отно- сительно нейронных сетей? В качестве интер- фейсов в этом случае выступают фотоаппарат, монитор, микрофон, колонки и прочее, а в качестве мозга – нейронная сеть. Состязательные нейронные сети для улучшения качества синтеза При задаче синтеза в нейросети используется генератор, который на входе получает конкретный тип информации либо случайный шумовой век- тор, а на выходе выдает сгенерированный объект (например, случайное лицо). Чтобы улучшить тех- нологию и получать более качественные изобра- жения на выходе, накладывается вторая нейро- нная сеть – дискриминатор. Ее задача – оцени- вать, насколько хорошо генератор сделал свою работу. Другими словами, это бинарный класси- фикатор, который умеет отличать сгенерирован- ные, фейковые, ненастоящие картинки от настоя- щих, реальных. Эти две сети обучаются параллель- но. Дискриминатор учится все лучше и лучше отличать подделку от оригинала, а генератор – "обманывать" дискриминатор. В результате этой антагонистической игры мы получаем идеальные генератор и дискриминатор. Состязательные ней- ронные сети используются для отображения: l текстового описания в сгенерированное изоб- ражение (готовая картинка соответствует опи- санию и с нуля синтезирована с помощью сверточной либо другой нейронной сети); l изображения в изображение (черно-белое в цветное, день в ночь и др.); l видео в видео; l синтеза изображений (генерируются лица несуществующих людей); l текста в аудио (технология WaveNet сделала прорыв в синтезе речи и в ближайшей пер- спективе появится в девайсах); l аудио в видео. Три причины успеха глубокого обучения В сфере нейронных сетей постоянно появляются новые изобретения и технологии. К основным причинам такого стремительного роста относятся: 1. Совершенствующиеся алгоритмы и архитек- туры нейронных сетей. 2. Доступные объемы данных (миллионы кар- тинок и тысячи категорий). 3. Ускорение обучения и вывода с помощью GPU. Нейронные сети обладают огромным потенциа- лом, чтобы кардинально изменить многие биз- нес-процессы и качество сервисов, а их приме- нение в развлекательных приложениях постепен- но отойдет на задний план. Уже сейчас ясно, что это мощный инструмент для решения серьезных задач и их возможности продолжат выходить на новые уровни и покорять новые рынки. n октябрь – ноябрь 2019 www.secuteck.ru МАШИННОЕ ЗРЕНИЕ В И Д Е О Н А Б Л Ю Д Е Н И Е 84 Рис. 8. Состязательные нейронные сети Рис. 7. Обработка последовательностей Рис. 9. Синтез изображения в изображение Т ехнологии нейронных сетей могут не просто классифицировать картинку, но и дать ее текстовое грамматически верное описание на естественном языке. В этом случае по входному объекту строится синтезированное с нуля (а не готовое из базы данных) предложение Ваше мнение и вопросы по статье направляйте на ss @groteck.ru