Наука и технологии

Нейросети научились анимировать «Флинтстоунов» по текстовому описанию

Американские разработчики научили нейросети по текстовому описанию создавать короткие анимированные ролики с персонажами мультсериала «Флинтстоуны». Для обучения модели CRAFT использовался массив из более чем 25 тысяч вручную размеченных роликов, говорится в статье, доступной на arXiv.org.

В последнее время разработчики все чаще экспериментируют с нейросетями, генерирующими контент на основе текстового описания.


Например, недавно Microsoft представила программу, которая может создавать картинку на основе текста. Однако со статичной картинкой работать значительно легче, чем с движущимися объектами, поэтому в области генерации анимированных изображений по текстовому описанию пока что не было заметного прогресса.

 

Специалисты из Института искусственного интеллекта Аллена и Иллинойсского университета в Урбане-Шампейне представили модель CRAFT (Composition, Retrieval and Fusion Network, «составляющая, добывающая и спаивающая нейросеть»), которая способна генерировать анимированные сцены на основе текстового описания сцены и действий персонажей. CRAFT состоит из трех разных нейросетей, которые позволяют выделять в текстовом описании подходящую композицию сцены, сущности (сюда входят как одушевленные, так и неодушевленные объекты) и фон. 

Для обучения разработчики использовали 25184 вручную размеченных трехсекундных (75 кадров) роликов со сценами из мультсериала «Флинтстоуны», при разметке которых авторы указывали кто присутствует на экране и что он делает. CRAFT  на обучающей выборке «понимает» кто и что делает, и затем использует подходящие части роликов при генерации новых сцен, а не рисует картинку с нуля. Результаты работы программы после обучения можно оценить на демонстрационного видео, опубликованного разработчиками:

Из ролика видно, что программа иногда выдает ошибки на разных уровнях исполнения: например, Вильма разговаривает по телефону, повернувшись лицом в другую сторону, а Фред в одном из роликов бежит на месте. Тем не менее, CRAFT демонстрирует заметный прогресс в области генерации видеоконтента из текстового описания – многие сцены выглядит именно так, как себе их мог бы представить человек, прочитавший текст. Стоит отметить, что пока что возможное применение представленного метода сильно ограничивает необходимость в ручной разметке большого объема данных.

Существуют и другие нейросети помогающие обрабатывать и генерировать видео. Например, в Индийском технологическом институте недавно разработали алгоритм, который может воссоздать движение на видео из размытого кадра.

Автор: Николай Воронцов

источник

Реклама

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

w

Connecting to %s