Журнал "Системы безопасности" #5, 2019

www.secuteck.ru октябрь – ноябрь 2019 ЦИФРОВАЯ ТРАНСФОРМАЦИЯ: AI, IOT, УМНЫЙ ГОРОД A L L - O V E R - I P 61 М ы все уже при- выкли к впе- чатляющим дости- жениям искусствен- ного интеллекта (ИИ) в различных интеллектуальных настольных играх. Никого уже не уди- вить победой ИИ над человеком в шахма- тах или в шашках. Почти три года назад как гром среди ясного неба была победа ИИ в игру го. В отличие от шахмат для го считалось принци- пиально невозможно просчитать все возможные варианты развития событий: число допустимых комбинаций в игре на стандартном гобане больше, чем атомов в наблюдаемой Вселенной, и поэтому казалось, что эта игра навсегда оста- нется в области человеческой интуиции. Программа AlphaGo компании Google, обучив- шись на истории игр лучших человеческих игроков в го, выиграла у сильнейшего игрока в мире Кэ Цзе со счетом 3:0. Следующим шагом было предоставление возможности ИИ учиться самостоятельно, без знания человече- ского опыта. Разработчики задались вопросом: что это даст? Так появилась программа AlphaGo Zero, которая училась играть сама с собой, проигрывая различные партии миллионы раз. И как результат – AlphaGo Zero победила обученного на человеческом опыте AlphaGo с разгромным счетом 100:0. То есть, по сути, выяснилось, что человеческий опыт так неоптимален, что мешает развиваться систе- мам ИИ в дальнейшем. Затем были попытки использования ИИ в воен- ных компьютерных играх – StarCraft и Dota 2, главное отличие их от настольных игр в том, что игроки не знают полностью текущее состоя- ние ресурсов и местоположения юнитов про- тивников, а знают только то, что могут увидеть их собственные юниты. То есть они начинают прогнозировать свои следующие шаги на осно- ве неполной информации. И уже в течение последнего года специально созданные боты вначале победили лучших игроков в Dota 2 в одиночных боях, а после уже и в групповых. Но во всех этих играх правила не меняются и известны заранее. А как бы научить ИИ само- стоятельно изучать мир, открывать его законы и применять их для достижения своих целей? Мне хотелось бы рассказать об очень интерес- ном эксперименте в этом направлении, кото- рый провела организация OpenAI. OpenAI – это некоммерческая исследовательская компания из Сан-Франциско, занимающаяся искусствен- ным интеллектом. Цель компании – развивать открытый, дружественный ИИ. Одним из осно- вателей является предприниматель Илон Маск. Суть эксперимента – научить несколько ИИ играть в прятки, взаимодействуя между теми, кто ищет, и теми, кто прячется. Для этого использовали игровой "движок", который умел рассчитывать физическую модель игрового мира – столкновения, гравитацию, возмож- ность передвижения различных объектов и т.д. Те объекты ИИ, которые искали, были сделаны в виде красных человечков, а те, которые пря- тались, – в виде синих. Команды между собой могли обмениваться информацией. Для ИИ были определены награды для "красных" и "синих", в зависимости от результата – видели или не видели они друг друга. Вначале игро- ков запустили в лабиринт из комнат с дверями, где стояли ящики, позволявшие перекрывать двери или прятаться за ними, и пандусы, дававшие возможность перепрыгивать по ним стены комнат. "Синие" могли блокировать объ- екты, чтобы их нельзя было передвинуть. Сначала игроки совершали случайные движе- ния, но уже после 8 млн итераций "синие" достаточно грамотно блокировали двери ящи- ками и успешно прятались от "красных". После 14 млн игр "красные" научились использовать пандусы для перепрыгивания стен в комнатах, за которыми прятались "синие". После 40 млн игр "синие" научились координировать свои действия и прятать пандусы в заблокирован- ных комнатах перед их блокировкой, чтобы их не могли использовать "красные". На следующем этапе обученных ИИ выпустили на открытое игровое поле, на котором были случайно расположенные различные объекты – ящики различных форм, пандусы и т.д. И "синие" научились из этих объектов строить закрытые места, где их не могли видеть "крас- ные". Для этого им понадобилось почти 90 млн партий. Через 500 млн игр "красные" научи- лись использовать почти любые объекты для перепрыгивания через различные препятствия, а "синие" – заранее блокировать объекты, чтобы их не могли использовать "красные". При этом в процессе обучения ИИ были при- обретены навыки, которые удивили самих исследователей. Например, "синие" научились выкидывать пандусы за пределы игровой зоны, чтобы ими не могли бы воспользоваться "красные", или просто убегать на край игровой площадки, где их не могли бы догнать, а "крас- ные" нашли возможность использовать физи- ческие законы игрового мира так, чтобы их при столкновениях под определенным углом подбрасывало вверх, откуда они могли бы увидеть "синих" в любом месте. В итоге экспериментов можно сказать, что была доказана возможность научить несколько ИИ взаимодействовать с друг другом, изучать законы окружающего мира и, самое главное, сохранять полученный опыт и использовать его в новой обстановке. Это еще шаг к возможно- стям использования ИИ в реальном мире. Например, обученное ядро ИИ легко адапти- ровать к реальным практическим задачам с небольшим дообучением, например опти- мальным путем передвигать на складах кон- тейнеры, делать защитные конструкции и т.д. Более подробно об этом эксперименте вы можете прочитать на сайте самой организации OpenAI: https://openai.com/blog/emergent- tool-use/ Алексей Коржебин Редактор рубрики "Цифровая трансформация: AI, IoT, умный город", директор по продукту AggreGate Edge компании Tibbo Systems КОЛОНКА РЕДАКТОРА Нужен ли искусственному интеллекту человеческий опыт? www.s4.itho.me AlphaGo Zero, которая училась играть сама с собой, победила обученного на человеческом опыте AlphaGo с разгромным счетом 100:0 С читалось невозможным просчитать все возможные варианты разви- тия событий для го: число допустимых комбинаций в игре на стандартном гобане больше, чем атомов в наблюдаемой Вселенной. Поэтому казалось, что эта игра навсегда останется в области человеческой интуиции