Защо изкуственият интелект на OpenAI се учи да играе на криеница
Игрите са най-лесния и ползотворен начин за децата да могат да развият различни базови умения, креативност, ориентация, физическа координация и много други. Понякога те помагат за разширяване на фантазията ни или за търсенето на нетрадиционни подходи за решаването на определени казуси. Казано накратко – игрите са естествения начин децата да се учат и да развиват най-ефективно мозъка си.
По същият начин може да възприемем и изкуствения интелект (AI). Като малко дете, което тепърва се учи на елементарни или сложни неща. Игрите са в епицентъра на самоообучението на различни програми от години. DeepMind на Google започва развитието на дигитални невронни системи, които чрез хиляди и милиони опити да могат сами да разучат дадена игра и впоследствие да се превърнат в истински майстори. Крайният резултат е доста силен, първо техните програми бият шампиони по шах, китайската Go и накрая успяват да се справят с професионални играчи на StarCraft II.
Създадената от различни технологични инвеститори, като Илон Мъск и Сам Елтман платформата за изкуствен интелект OpenAI тръгва по същия път. Тя се ориентира към по-класическа детска игра – тази на криеница. Програмите са разделени на два отбори – на криещи се и търсещи. Тяхната задача е не само да разучат подробните механики на играта, но и да измислят нови и нови стратегии и контрастратегии с които да се надхитрят едни други.
OpenAI публикува подробните резултати, които показват различните етапи на обучение на двете страни. След милиони опити те развиват доста интересни стратегии, включително и започват да се възползват от технически бъгове в зададените параметри на физиката. Но за тях след малко.
Прости правила и първи стъпки
OpenAI поставя изключително базови правила за своя изкуствен интелект. Отборът на криещите се разполага с ограничено време да се покрие, като използва различни подвижни и неподвижни елементи от дигитално създадения терен. След като се активират търсещите, които трябва да намерят опонентите си.
Всяка една от страните може да използва по различен начин елементите по терена за свое предимство. Те включват подвижни рампи, блокове и стени (които могат да се фиксират), както и неподвижни стени. Разликата спрямо други алгоритми е, че програмите на OpenAI имат само зададени крайни цели, но не и с дефинирани инструкции кое как да ползват. Те сами трябва да се научат къде да се движат, кой предмет как да ползват.
Първите стъпки са повече от комични. Двата отбора се движат почти хаотично и взаимодействието между тях е по-скоро обект на случайност, отколкото на някакво планиране. След над два милиона игри, криещите се бързо се ориентират къде са по-безопасните точки, а търсещите – къде най-вероятно са отишли опонентите им. С което се формират и първите по-ясни игри на криеница.
Отборната игра
Следващото ниво на еволюция и обучение на AI преминава в създаването на специални стратегии от страна на криещите се, които изискват отборни усилия. Това включва използване на подвижните елементи за създаването на затворени помещения, които противника да не може да достигне. Дигиталните човечета се научават как и къде да преместват разположените блокове. Това става след общо 8 млн. преигравания.
Отборът на гонещите също не остава със скръстени ръце и след още няколко милиона преигравания се научават да използват намиращата се наблизо подвижна рампа, която преместват за да прескочат стената.
След повече от 40 млн. преигравания общо, криещите се затварят със себе си и рампата. Те успяват да се координират, така че да им стигне времето. Причината е, че подвижните елементи може да сменят своите първоначални позиции и да бъдат разположени по-далеч от входовете. Което засилва елемента на координация в отбора на криещите се.
По-сложната обстановка
През първите фази, двата отбора са на терен с конкретни и предварително фиксирани параметри. За да увеличат трудността създателите на OpenAI ги пускат на такъв, който при всяко разиграване се формира на случаен принцип – с неговите фиксирани и подвижни елементи.
Отново, първите няколко милиона опити са обучение на изкуствения интелект в правилата на гоненицата. След, което криещите се започват да строят затворени укрития от подвижните и неподвижни елементи, а след няколко милиона разигравания, гонещите започват да използват рампите по предназначение. Което е последвано от контрастратегията с криенето/заключването на елементите за прескачане на препятствията.
До момента няма нови открития спрямо предходния експеримент. Единствената по-голяма разлика е, че елементът на случайност усложнява процеса на обучение и на AI му отнема много повече разигравания, докато развие всички тези тактики по най-ефективния начин.
Учените от OpenAI продължават и техния изкуствен интелект достига до някои интересни прийоми. След над общо 380 млн. игри, гонещите започват да се възползват от бъгове във физиката на дигиталната среда, за да могат да преодолеят заключените рампи. Те ги използват за т.нар. блоково сърфиране. Оказва се, че когато се качат на подвижните блокове, дигиталните персонажи могат да се придвижват по терена с тях.
Сто милиона разигравания по-късно, криещите измислят как да противодействат на този нов метод. За да предотвратят блоковото сърфиране, те не само, че създават затворена стая, но заключват всички останали подвижни елементи.
Чрез тази проста игра, създателите на OpenAI показват целия процес по самообучение на програми. Също така показва, че в един момент програмите ще достигнат до доста нетрадиционни решения, за да постигнат своята цел.