В Disney научили алгоритм читать сценарий и «снимать» по нему видео

Исследователи из Disney Research разработали алгоритм, способный создавать короткие анимационные ролики на основе сценария, написанного естественным языком.

Во время работы алгоритм упрощает исходные предложения, а затем сопоставляет каждый объект или действие с аналогами, имеющимися в его библиотеке, и создает на их основе 3D-анимацию, рассказывают авторы статьи, опубликованной на arXiv.org.

Ученые начали решать проблему синтеза изображений или видеозаписей на основе текстового описания достаточно давно, однако пока эта технология находится на начальном этапе развития и ее реализации обладают множеством недостатков. Эту проблему можно разбить на две основные части: обработка естественного языка, позволяющая компьютеру понимать смысл сказанного человеком, а также создание кадров. При обработке речевой последовательности от человека компьютер пытается понять структуру предложений, а также соотношение между словами в нем, а затем на основе этих знаний выполнить следующую задачу. В данном случае такой задачей является синтез реалистичного изображения или видеоролика, в котором объекты действуют в соответствии с исходным сценарием.

Алгоритмы, создающие ролики на основе текстового описания, уже существуют. Однако они обладают несколькими недостатками, главный из которых заключается в том, что им требуется не обычный текст на естественном языке (к примеру, сценарий фильма), а максимально простые, хотя и грамматически корректные, предложения. Ашутош Моди (Ashutosh Modi) и его коллеги из DIsney Research разработали алгоритм, способный работать с реальными сценариями фильмов и спектаклей. Обычно сценарии имеют четкую структуру, в которой можно выделить описание сцены с действиями персонажей, диалоги, техническую информацию для операторов и другие элементы. В своей работе исследователи сконцентрировались только на основном элементе, в котором происходит общее описание сцены и перечисляются действия действующих лиц.

Созданную разработчиками программу можно разделить на несколько модулей, выполняющих определенную функцию. Сначала исходный текст сценария получает модуль, отвечающий за предварительную обработку. Он распознает элементы сценария, к примеру, описание сцены, и создает пары типа «абзац текста — название элемента». Затем эти данные передаются модулю обработки языка. Изначально он упрощает предложения, по возможности разбивая каждое из них на два или больше, которые описывает по одному действию. Это происходит благодаря набору правил, по которым алгоритм распознает типы слов и их соотношения между собой.

Кроме того, модуль упрощает предложения не только структурно, но и лексически, заменяя слова на синонимы. Это необходимо для того, чтобы на последнем этапе алгоритм смог подобрать для каждого слова в сценарии соответствующую 3D-модель или анимацию из библиотеки, собранной авторами. После получения упрощенного сценария алгоритм размечает технические данные, такие время начала действия, эмоции действующих персонажей и другие, и отдает эти данные модулю, создающему итоговую 3D-анимацию на основе этих данных.

Разработчики проверили эффективность алгоритма с помощью BLEU-метода. Во время оценки три человека проводили такое же преобразование сценариев, как и алгоритм, а затем исследователи измеряли различия в преобразованиях, выполненных людьми и алгоритмом. Выяснилось, что качество преобразования (близость к преобразованию, сделанному человеком) достаточно сильно варьируются в зависимости от типа слова в предложении, к примеру, ближе всего к человеку алгоритм описывал манеры, с которыми делаются те или иные действия. Сравнение с другими алгоритмами обработки естественного языка показало, что новый алгоритм дает более близкий к человеческому результат.

Наконец, авторы провели оценку на добровольцах, которых просили оценить качество работы алгоритма. В общем случае при оценке по пятибалльной шкале от «Полностью несогласен» до «Полностью согласен» 45,23 процента добровольцев согласились с утверждением, что алгоритм корректно визуализирует текст. Кроме того, почти 60 процентов добровольцев согласились с тем, что алгоритм не добавляет в визуализацию действия, не упомянутые в сценарии.

Источник: N+1

Подписывайтесь на канал «Хвилі» в Telegram, на канал «Хвилі» вYoutube, страницу «Хвилі» в Facebook

В Disney научили алгоритм читать сценарий и «снимать» по нему видео

Lidl, Biedronka чи Auchan: українцям у Польщі підказали, де закуповуватися найвигідніше

Блокування мобільного зв'язку під час атак дронів: що чекає на українців

Росія, на вихід: у Перській затоці швидко знайшли заміну путінській нафті, – Reuters

The Financial Times: Націоналіст перемагає на президентських виборах у Польщі

«Стара корупційна практика»: ДОТ Жумаділова переплатив 86 млн грн «зручному» постачальнику їжі для армії

Агентство Fitch знизило рейтинг України

Сакварелідзе не бачить слідів, які у скандалі навколо Гізо Углави ведуть до ОП

Відсторонення заступника директора НАБУ Гізо Углави свідчить про навмисний політичний тиск на Бюро – військовий

Група компаній SHERIFF стала жертвою злочинної змови, — ЗМІ

Чверть українців приділяє новинам найбільше часу в месенджері — опитування Viber

Українські ГО STEM is FEM та Impact Force надають ноутбуки дітям для продовження навчання під час війни: як отримати

Поліція влаштувала маски-шоу в київському готелі для рольових ігор

Ложкін прогнозує Україні майбутнє «Ізраїлю Східної Європи»

Procter&Gamble визнано міжнародним спонсором війни в Україні

Міноборони заявляє про нульову толерантність до корупції та обіцяє перевірку «харчового» скандалу

Найбільші інвестиції в державне майно в 2022 році. Підсумки приватизації

В Україні дорожчає пальне: АЗС підвищили ціни на бензин і автогаз, дизель подешевшав

Затримка із завершенням будівництва в Україні до 70% новобудов може скласти понад 1 рік, - експерт

Сергій Касьянов про те, чого чекають від уряду українські аграрії

ОККО, Авіс, Укрнафта та інші АЗС оновили ціни на бензин, дизпаливо та автогаз у різних областях