Технології

Штучний інтелект навчили імітувати людський голос

Співробітники пекінської компанії Baidu створили роботизовану систему, яка відтворює людську мову, з точністю копіюючи її унікальні характеристики.

Технологія під назвою Deep Voice працює на основі машинного навчання: вона «тренувалася» на звуковому записі, що триває більше 800 годин і включає в себе близько 2400 різних голосів. Для ефективної роботи нейромережі потрібно близько 100 п’ятисекундних звукових сигналів, при цьому вона може обдурити системи розпізнавання голосу за допомогою всього десяти п’ятисекундних семплів.

Deep Voice точно імітує тембр і інтонації голосу, що робить  вироблені їм звуки як справжні, і, на думку творців, система знайде широке застосування в абсолютно різних областях. Наприклад, вона може бути використана для створення персоналізованих цифрових помічників, надання послуг з автоматичного синхронного перекладу, озвучування книг, фільмів і відеоігор. Більш того, нейромережа полегшить життя тим, хто з якихось причин втратив можливість говорити, і скрасить самотність дітей, читаючи їм казки на ніч, коли батьки поїхали у відрядження. Цікаво, що Deep Voice вміє змінювати голос, роблячи його чоловічим замість жіночого або додаючи йому іноземний акцент.

«Це справжній прорив з технічної точки зору, – каже один з авторів розробки Лео Зу (Leo Zou). – Нам вдалося вирішити складну генеративную проблему, а саме, ми змогли синтезувати живу мову з усіма її особливостями ».

Раніше канадськими розробниками був створений схожий голосовий сервіс під назвою Lyrebird. Він стискає всі індивідуальні мовні характеристики в дуже короткий запис, відтворюючи 1000 пропозицій всього за півсекунди. Система легко копіює будь-які звуки, починаючи від «дзижчання» бензопили і закінчуючи співом тропічних птахів, а також може генерувати нові голоси і додавати старим певний тон: сердитий, веселий, співчуваючий. Lyrebird, також як і Deep Voice, застосовується для роботи голосових помічників, озвучування мультимедійних продуктів і синтезу мови людей з обмеженими можливостями.

Правда, у обох технологій є загальна проблема: можливо, ними захочуть скористатися шахраї, щоб вводити людей в оману або обманювати програми, що працюють на основі розпізнавання мови. А юристи побоюються, що незабаром аудіозаписи перестануть бути доказом в ході судових процесів.

admin

Останні статті

Принцип дії акумуляторів: як хімія перетворюється на електроенергію

Акумулятори стали невід’ємною частиною сучасного життя. Вони живлять смартфони, автомобілі, бездротові інструменти, системи зберігання енергії…

4 дні тому назад

Дослід Штерна: як магнітний момент атомів змінив уявлення про квантову фізику

Дослід Штерна (часто його згадують як «дослід Штерна–Герлаха») – один із тих експериментів, які буквально…

4 дні тому назад

Алергія на людей: чому деякі люди дійсно можуть бути чутливими до людських рідин

Фраза «У мене алергія на тебе» зазвичай звучить як жарт або слоган для футболки, проте…

1 тиждень тому назад

Що означають цифри тостері — і це не хвилинии

Можливо, ви давно думали, що числа на тостері позначають хвилини, або ступінь «прожарювання». Проте нове…

2 тижні тому назад

Чому всі континенти «збилися докупи»: вчені пояснили нерівномірний розподіл суші на Землі

Коли ми дивимося на карту світу, може здатися, що материки рівномірно розподілені по всій планеті.…

4 тижні тому назад

Найкращі фільми про школу з усього світу

Шкільне життя - це справжній кіносценарій: перше кохання, дружба, булінг, конфлікти з учителями, спроби знайти…

1 місяць тому назад