Розробники з Microsoft Research представили алгоритм, який може анімувати статичні кадри осіб за допомогою необроблених записів мови людей. Створена ними модель – контекстно-залежна: вона виділяє з аудіо не тільки фонетичні характеристики, але також і емоційний тон і сторонній шум, завдяки чому може накласти на статичний кадр всі можливі аспекти мови.
Для анімації статичних зображень в більшості випадків використовується перенесення інформації з відеозаписів на необхідний кадр. У вирішенні цього завдання розробники вже домоглися значних успіхів: зараз існують моделі, які можуть достовірно переносити мова з відеоряду на статичний кадр, відтворюючи міміку говорить.
Труднощі в рішенні, однак, можуть виникати в разі, якщо «оживити» зображення потрібно за допомогою аудіоряду: всі існуючі зараз алгоритми, які можуть перенести аудіо на статичний кадр так, щоб вийшла натуральна анімація або навіть відео процесу мовлення, обмежені тим, що можуть працювати тільки з чистою, добре чутною промовою, сказаною нейтральним голосом без емоційного забарвлення. Людська мова, проте, досить багатогранна і в ідеалі необхідно навчити подібні алгоритми відтворювати всі її аспекти.
Зайнятися цим вирішили Гаурав Міттал (Gaurav Mittal) і Баоюань Ван (Baoyuan Wang) з Microsoft Research. Їх алгоритм отримує на вхід аудіофайл і за допомогою варіаційного автоенкодера на основі нейромереж з довгої короткостроковою пам’яттю виділяє ключові аспекти: фонетичну і емоційну складову (всього алгоритм розуміє шість базових емоцій), а також сторонній шум. На основі виділеної інформації реконструюється міміка мовця – для цього використовуються відеофайли – і накладається на початку статичне зображення.
Для навчання алгоритму дослідники використовували три різних датасети: GRID, що складається з тисячі відеозаписів мови 34 людей, сказаної з нейтральним виразом, 7,4 тисячі відеозаписів промов з різним емоційним забарвленням, взятих з датасета CREMA-D, а також понад сто тисяч уривків з відео TED.
В результаті дослідникам вдалося анімувати статичні зображення навіть з використанням аудіо з фоновим шумом до 40 децибел, а також – успішно використовувати емоційні складові промови говорить в анімації. Самі анімації автори не наводять, але призводять порівняння одержані кадрів з результатами роботи одного з перших подібних алгоритмів .
Порівняння результатів роботи одного з оригінальних алгоритмів і нового алгоритму на вимові окремих звуків з додаванням різних емоцій і шуму
Автори роботи також уточнили, що їх алгоритм можна використовувати у всіх уже існуючих системах, які можуть анімувати статичні зображення за допомогою аудіо: для цього необхідно буде замінити в сторонніх алгоритмах обробляє аудіо компонент.
Мова, безумовно, несе дуже багато інформації про що говорить, причому не тільки про емоції і наміри, але також, наприклад, про зовнішній вигляд. Нещодавно американські розробники навчили алгоритм відтворювати зразкову зовнішність людини по запису його промови: система досить точно передає стать, вік і расу, хто говорить.
Leave a Reply
Щоб відправити коментар вам необхідно авторизуватись.