Розробники з Microsoft Research представили алгоритм, який може анімувати статичні кадри осіб за допомогою необроблених записів мови людей. Створена ними модель – контекстно-залежна: вона виділяє з аудіо не тільки фонетичні характеристики, але також і емоційний тон і сторонній шум, завдяки чому може накласти на статичний кадр всі можливі аспекти мови.
Для анімації статичних зображень в більшості випадків використовується перенесення інформації з відеозаписів на необхідний кадр. У вирішенні цього завдання розробники вже домоглися значних успіхів: зараз існують моделі, які можуть достовірно переносити мова з відеоряду на статичний кадр, відтворюючи міміку говорить.
Труднощі в рішенні, однак, можуть виникати в разі, якщо «оживити» зображення потрібно за допомогою аудіоряду: всі існуючі зараз алгоритми, які можуть перенести аудіо на статичний кадр так, щоб вийшла натуральна анімація або навіть відео процесу мовлення, обмежені тим, що можуть працювати тільки з чистою, добре чутною промовою, сказаною нейтральним голосом без емоційного забарвлення. Людська мова, проте, досить багатогранна і в ідеалі необхідно навчити подібні алгоритми відтворювати всі її аспекти.
Зайнятися цим вирішили Гаурав Міттал (Gaurav Mittal) і Баоюань Ван (Baoyuan Wang) з Microsoft Research. Їх алгоритм отримує на вхід аудіофайл і за допомогою варіаційного автоенкодера на основі нейромереж з довгої короткостроковою пам’яттю виділяє ключові аспекти: фонетичну і емоційну складову (всього алгоритм розуміє шість базових емоцій), а також сторонній шум. На основі виділеної інформації реконструюється міміка мовця – для цього використовуються відеофайли – і накладається на початку статичне зображення.
Для навчання алгоритму дослідники використовували три різних датасети: GRID, що складається з тисячі відеозаписів мови 34 людей, сказаної з нейтральним виразом, 7,4 тисячі відеозаписів промов з різним емоційним забарвленням, взятих з датасета CREMA-D, а також понад сто тисяч уривків з відео TED.
В результаті дослідникам вдалося анімувати статичні зображення навіть з використанням аудіо з фоновим шумом до 40 децибел, а також – успішно використовувати емоційні складові промови говорить в анімації. Самі анімації автори не наводять, але призводять порівняння одержані кадрів з результатами роботи одного з перших подібних алгоритмів .
Порівняння результатів роботи одного з оригінальних алгоритмів і нового алгоритму на вимові окремих звуків з додаванням різних емоцій і шуму
Автори роботи також уточнили, що їх алгоритм можна використовувати у всіх уже існуючих системах, які можуть анімувати статичні зображення за допомогою аудіо: для цього необхідно буде замінити в сторонніх алгоритмах обробляє аудіо компонент.
Мова, безумовно, несе дуже багато інформації про що говорить, причому не тільки про емоції і наміри, але також, наприклад, про зовнішній вигляд. Нещодавно американські розробники навчили алгоритм відтворювати зразкову зовнішність людини по запису його промови: система досить точно передає стать, вік і расу, хто говорить.
Акумулятори стали невід’ємною частиною сучасного життя. Вони живлять смартфони, автомобілі, бездротові інструменти, системи зберігання енергії…
Дослід Штерна (часто його згадують як «дослід Штерна–Герлаха») – один із тих експериментів, які буквально…
Фраза «У мене алергія на тебе» зазвичай звучить як жарт або слоган для футболки, проте…
Можливо, ви давно думали, що числа на тостері позначають хвилини, або ступінь «прожарювання». Проте нове…
Коли ми дивимося на карту світу, може здатися, що материки рівномірно розподілені по всій планеті.…
Шкільне життя - це справжній кіносценарій: перше кохання, дружба, булінг, конфлікти з учителями, спроби знайти…