AI създава анимации с помощта само на една снимка

Юлиян Арнаудов

6 години ago

Когато става дума за изкуствен интелект (AI), Samsung не излиза сред първите ни асоциации. Колкото и компанията да се опитва да наложи своя асистент Bixby в устройствата си, той просто още не е узрял толкова, колкото Google Assistant. Това не означава, че технологичният гигант не работи усилено в посока подобряване на своите AI възможности.

Сега, руската лаборатория на Samsung разработва система, която може да създаде лицеви анимации, базирани само и единствено от една снимка. Фалшивите видеа, направени с помощта на AI са познати под името „задълбочени фалшификати“ (deepfakes). Те започнаха да се появяват, като част от различни системи, които позволяват да се нагоди аудиото и видеото, така че да се получи изцяло измислена композиция, която да изглежда максимално реалистична.

Фалшивото видео

Технологията е изключително опасна ако се използва за користни цели, като например разпространяване на фалшиви новини. Например, чрез нея може да се направи видео, в което американският президент Доналд Тръмп се врича във вечна вярност на Кремъл и обявява безусловна капитулация на САЩ пред Русия. Нещо, което просто няма как да стане, независимо от различните конспирации.

За тази технология обикновено се използва голям масив от кадри, които изкуственият интелект да обработи, за да може да напасне движенията на лицето и тялото и най-вече – на устата, за да произведе фалшивото видео изказване. Новият софтуер на Samsung позволява това да се постигне, като се използва само една-единствена снимка за основен източник.

Руският екип постига доста забавни резултати и примери – как може картината на Мона Лиза или един портрет на Айнщайн да оживеят. Анимациите създават впечатлението, че са записани как говорят.

Най-важно е обучението

Samsung използват специален алгоритъм, който обучава системата да може да създава видео на базата на определен брой кадри. Примерно се записва човек, как говори и се предоставят 16 отделни кадъра на този процес. Софтуерът е програмиран да разпознава основните точки и елементи на човешкото лице и на базата на анализа им от отделните кадри и предоставеното видео сравнява резултатите. Следващата стъпка в самообучението на системата е просто да се намали постепенно броя на предоставените за референция статични изображения. Накрая, програмата използва само един кадър или снимка на базата на получения анализ да направи кратко видео.

Резултатите са повече от убедителни, като движенията на главата са сравнително плавни и реалистични. За момента са доста кратки, но предвид, че са продукт базиран само на една снимка, постижението е повече от впечатляващо. Нямат звук, но това прави софтуера на Samsung удобен да се правят кратки gif-ове лесно и бързо, като се използва само един кадър.

Звучи невинно на първо четене, но представете си, че след година или две, тази система еволюира и съчетае не само лицева анимация, но се комбинира с програма за манипулиране на глас. Така, благодарение на само една портретна снимка и примерно кратък звуков файл ще може да се направи цяло видеоизказване, което да бъде изцяло манипулирано и измислено.