Журнал "Системы Безопасности" № 2‘2025

В И Д Е О Н А Б Л Ю Д Е Н И Е И В И Д Е О А Н А Л И Т И К А 63 В идеоданные, которые раньше было очень трудно искать и анализировать, также стали доступными для поиска с помощью таких запросов, как "Найдите мужчину в фиолетовой рубашке с футляром для скрипки", которые (как и распознавание лиц) теперь можно запускать для огромных объемов видеоданных. Техноло- гии видеоаналитики стали широко доступны, и большинство камер наблюдения коммерческой линейки включают в себя ту или иную форму встроенной интеллектуальной технологии. Предыдущее поколение технологий видеоана- литики было ограничено обнаружением узкого набора объектов, на которых их кропотливо обучали, и часто работает плохо. Сегодня революционные достижения в области боль- ших языковых моделей приводят к появлению и становлению нового поколения технологии. Хотя языковые модели, как следует из их названия, в основном сосредоточены на текс- те, методы, приведшие к прорывному успеху этих моделей, проникают и в машинное зре- ние. В частности, программы Vision Language Models (VLM) могут понимать как визуальные, так и входные данные в виде текста на есте- ственном языке. Эти новые программы машин- ного зрения основаны на той же технологии, что и языковые модели, называемые транс- форматорами, в отличие от "классического" машинного зрения, в основе которого техно- логии "сверточные нейронные сети" (Convolu- tional Neural network – CNN). Хотя обе техно- логии продолжают использоваться и иногда комбинироваться, а видеотехнологии все еще быстро развиваются, это, по-видимому, боль- шое изменение в сфере видеонаблюдения. Преимущества VLM Развитие Vision Language Models будет иметь три важных последствия. 1. Они делают технологию более мощной и эффективной VLM способны обобщать гораздо лучше, чем прежние программы видеоаналитики на основе сверточных нейросетей, поскольку они соче- тают распознавание изображений с общими знаниями о мире, которые большие языковые модели получают в ходе обучения на всех текс- товых данных Интернета. Например, старой форме машинного зрения (программе на осно- ве технологий CNN) показывают миллионы изображений лошадей и слонов и таким обра- зом кропотливо учат ее идентифицировать и различать этих животных. VLM находят зебру на видео, даже если они никогда раньше не видели ее фотографии, используя свои знания о мире ("зебра похожа на лошадь с полоска- ми"). Вместо того чтобы ограничиваться закры- тым набором предопределенных вещей, VLM способны распознавать огромное количество разнообразных объектов, событий и контекстов без специальной подготовки по каждому из них. VLM также, по-видимому, намного лучше справляются с контекстным и целостным пони- манием сцен. 2. VLM делают аналитику намного дешевле и более доступной В декабре 2024 г. инженер-технолог Саймон Уиллисон подсчитал, что анализ всех 68 тыс. изображений в его личной фотобиблиотеке с использованием модели Google Gemini обой- дется в 1,68 доллара. Можно также транслиро- вать видео на такие модели, как Gemini, и заставлять их анализировать содержимое, что стоит примерно 10 центов за час демонстрации видео. Такие низкие затраты означают, что по мере совершенствования технологии и распро- странения понимания этих возможностей ее применение не будет ограничиваться Google и несколькими другими разработчиками ИИ. Технология станет легкодоступной для широко- го круга компаний, занимающихся безопас- ностью, и найдет свое применение в продуктах, использующихся для наблюдения за людьми в самых разных контекстах, от частных про- странств, таких как магазины и торговые цент- ры, до общественных мест, где полиция разме- стила камеры наблюдения. Как и в случае с LLM, модели могут все чаще запускаться локально, без необходимости под- ключения к серверам OpenAI, Google или дру- гих крупных компаний и обмена данными с ними. Хорошо, если технологии ИИ будут демократизироваться, а не контролироваться крупными игроками, но это также означает, что защитные механизмы станут жизненно важны- ми, поскольку различные стороны, использую- щие технологии на основе ИИ, будут их развер- тывать как с благими намерениями, так и с совсем иными. 3. Интерфейсы на естественном языке делают машинное зрение более доступным и простым в использовании Вместо того чтобы ограничиваться точно сфор- мулированными меню или тегами объектов и поведения, которые модель обучена распозна- вать, пользователи смогут просто отдавать команды, используя повседневную речь, напри- мер: "Напиши мне, если собака запрыгнет на диван", "Сообщи мне, если дети будут ходить по моему газону", или "Сообщи мне, если в рай- оне появится чернокожий мужчина", или "Кто- то ведет себя подозрительно". Технология все еще дает сбои Важно помнить, что, как и большие языковые модели, VLM ненадежны. Аналитическая фирма IPVM, работающая в сфере видеонаблю- дения, протестировала новый продукт на базе VLM одной компании из сферы безопасности и отметила, что он "выдал некоторые результа- ты, которые были невероятно впечатляющими, но также и некоторые результаты, которые были невероятно плохими". Группа академических и отраслевых экспертов объяснила в недавней статье, что проблема соединения языка со зре- нием не решена полностью. Например, боль- шинство моделей с трудом понимают простран- ственные отношения или подсчет. Они часто игнорируют часть входной подсказки, а также могут "галлюцинировать" и создавать контент, который не является ни необходимым, ни реле- вантным, так что разработка надежных моделей по-прежнему является очень активной сферой деятельности. Как и в случае с распознаванием лиц (которое на самом деле является подмножеством видео- аналитики), есть ряд причин беспокоиться по поводу этой технологии, когда она работает плохо, и другие причины беспокоиться, когда она работает хорошо. Если VLM останется в чем-то не совсем надежной технологией, но при этом достаточно внушающей доверие для того, чтобы люди полагались на нее и не пере- проверяли точность результатов, это может при- вести к ложным обвинениям и другим неспра- ведливым моментам в сфере безопасности. Но по мере того как данная технология будет становиться более интеллектуальной, появится возможность собирать больше и более деталь- ной информации, а также осуществлять тща- тельный контроль и мониторинг людей во все большем количестве контекстов. В конце концов, никто не знает, насколько эффективной станет эта технология или как быстро это произойдет. Мы уже видим, как ИИ все чаще используется для мониторинга в самых различных ситуациях, включая мони- торинг водителей транспортных средств, рабочего места, обнаружение оружия и обес- печение соблюдения правил. n По материалам www.aclu.org www.secuteck.ru апрель – май 2025 П рограмме на основе технологий CNN показывают миллионы изобра- жений лошадей и слонов и таким образом кропотливо учат ее иденти- фицировать и различать животных. VLM находят зебру на видео, даже если они никогда раньше не видели ее фотографии, используя свои зна- ния о мире: "зебра похожа на лошадь с полосками". Видеонаблюдение становится более эффективным благодаря большим визуальным моделям Мы уже привыкли к тому, что видеоаналитика позволяет не просто записывать видео и просматривать его, но и анализировать в режиме реального времени то, что про- исходит в видеопотоке, и, при определенных условиях, отправлять сигналы тревоги операторам.

RkJQdWJsaXNoZXIy Mzk4NzYw