Журнал "Системы Безопасности" № 2‘2022
Ц И Ф Р О В А Я Т Р А Н С Ф О Р М А Ц И Я , A I , I o T 29 www.secuteck.ru апрель – май 2022 П ервая версия н е й р о с е т и была представлена OpenAI еще в янва- ре 2021 г. С момен- та выхода DALL-E разные страны заинтересовалась этой разработкой, например в Китае подобный генера- тор появился под названием CogView. Нако- нец, генерировать изображения стало воз- можным и из текстов на русском языке: в ноябре 2021 г. команды SberAI, SberDevices, Самарского университета, AIRI и SberCloud представили проект ruDALL-E. Интересный факт, что обучение нейросети ruDALL-E стало самой большой вычислительной задачей в России. Эффектный набор функций С выходом новой версии появились возмож- ности вносить реалистичные изменения в существующие изображения с подписями на естественном языке. Теперь сеть может добав- лять и удалять элементы, принимая во внима- ние тени, отражения и текстуры. Кроме того, теперь DALL-E 2 на основе ориги- нального изображения может создавать раз- личные его вариации. В новой версии также появилась возможность генерировать более реалистичные и точные изображения с 4-крат- ным увеличением разрешения. Сеть DALL-E изначально обладала достаточно большим набором функций. Например, вы можете управлять атрибутами объектов и нарисовать "пятиугольные зеленые часы", "кресло в виде авокадо" или "куб в виде дико- браза". Причем это работает и для нескольких объектов одновременно. В качестве примера рассмотрим фразу "ежик в красной шапке, желтых перчатках, синей рубашке и зеленых штанах". Чтобы правильно интерпретировать это предложе- ние, DALL-E должна не только правильно скомпоновать каждый предмет одежды с животным, но и сформировать ассоциации "шапка, красный", "перчатки, желтый", "рубашка, синий" и "штаны, зеленый", не смешивая их. При этом DALL-E понимает и относительное позиционирование: напри- мер, можно описать положение предметов как "пирамидка из кубиков, наверху крас- ный, под ним зеленые, которые стоят на синих". DALL-E позволяет управлять точкой обзора сцены, настройкой камеры и 3D-стилем, в котором визуализируется сцена. Например, она понимает описания "очень крупный план капибары из вокселей, сидящей на поле" или вид объектива "рыбий глаз" и "сферическая панорама". Кладезь знаний То, что написано выше, звучит замечательно, но пока это выглядит как продвинутый пользо- вательский интерфейс для программы 3D- моделирования посредством текстовых команд. Однако особенности DALL-E отнюдь не в этом. DALL-E построена на сети GPT-3, которая обучена на гигантском объеме информа- ции, поэтому DALL-E обладает в том числе географическими и историческими знания- ми. Сеть может сформировать реалистич- ные изображения на запрос "фото блюд из Китая", "фото моста "Золотые ворота" в Сан- Франциско" или "фото телефонов начала XX века". GPT-3 содержит не только сырую информа- цию. Она хранит во внутренних структурах уже не просто данные, а знания, на основе которых может делать выводы и синтезиро- вать новые знания. Например, используя композиционную природу языка, DALL-E имеет возможность объединять понятия для описания как реальных, так и воображаемых вещей, может комбинировать разрозненные идеи для синтеза объектов, некоторые из которых вряд ли существуют в реальном мире. К примеру, сеть делает изображения по запросам "улитка из арфы", "фото пиццы с начинкой из лего", "статуя, поскользнувшая- ся на льду", "Голлум пишет свою автобиогра- фию", "лев в капюшоне, взламывающий ноутбук". Сеть действительно может "размышлять" GPT-3 умеет выполнять многие виды задач исключительно на основе описания и под- сказки, чтобы сгенерировать ответ, без како- го-либо дополнительного обучения. Напри- мер, на запрос перевести на французский язык фразу "человек, выгули- вающий свою собаку в парке" GPT-3 отвечает по-французски: "Un homme qui promène son chien dans le parc". Эта способность называет- ся рассуждениями zero shot. DALL-E расши- ряет эту возможность до визуальной области и может выполнять несколько видов задач преобразования изображения в другое изоб- ражение при правильном запросе, например нарисовать "точно такого же кота вверху, как набросок внизу" или нарисовать "точно такой же чайник, как сверху, но с надписью gpt снизу". Даже сами разработчики были удивлены такой функциональностью. Они заявили, что не вносили никаких изменений в ней- ронную сеть или процедуру обучения, чтобы ее разработать. Более того, выясни- лось, что DALL-E может решать задачи на рассуждения по аналогии. Разработчики подтвердили эту способность, протестиро- вав ее на прогрессивных матрицах Равена – визуальном тесте IQ, который широко использовался в XX веке. DALL-E – это не просто научная разработка Такие системы имеют и сугубо практическое значение: они найдут свое применение в рек- ламе, иллюстрации книг и статей, возможно частично заменив профессиональных худож- ников и иллюстраторов. DALL-E – это прекрасный пример искусствен- ного интеллекта, который уже не просто обра- батывает данные и решает такие узконаправ- ленные задачи, как распознавание лиц или перевода текста, но уже подбирается к зада- чам искусственного интеллекта общего назначения. Появление систем класса DALL-E, GPT-3 все четче поднимает перед человечеством вопросы, которые раньше относились к исключительно философской сфере, – "Что есть сознание? Как отличить сложно запро- граммированную систему от разумного существа, обладающего мышлением? Как взаимодействовать человечеству с такими "разумными" системами? Осознают ли они себя? Как понять их внутренний мир?" Ведь, по сути, DALL-E – это визуализация внутренних структур сети GPT-3. И нако- нец, сможем ли мы ответить на вопрос Филипа Дика из романа "Бегущий по лез- вию бритвы" – "Снятся ли андроидам элек- троовцы?" n Алексей Коржебин Эксперт редакции журнала "Системы безопасности" КОЛОНКА ЭКСПЕРТА Снятся ли андроидам электроовцы? В апреле 2022 г. компания OpenAI представила вторую версию нейронной сети DALL-E. Ранее мы публиковали статью о нейронной сети GPT3 1 , представленную той же организацией, которая умела генерировать тексты на основе краткого описания. Сеть DALL-E представляет собой развитие этой идеи, но уже генерирует результат в виде картинок. Название сети имеет явные отсылки к известному художнику-сюр- реалисту Сальвадору Дали и роботу Wall-E из одноименного мультфильма 1 Коржебин А. Нейросеть как литературный "негр" // Системы безопасности. 2020. № 4. С. 35.
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzk4NzYw