Технології

Штучний інтелект навчили імітувати людський голос

Співробітники пекінської компанії Baidu створили роботизовану систему, яка відтворює людську мову, з точністю копіюючи її унікальні характеристики.

Технологія під назвою Deep Voice працює на основі машинного навчання: вона «тренувалася» на звуковому записі, що триває більше 800 годин і включає в себе близько 2400 різних голосів. Для ефективної роботи нейромережі потрібно близько 100 п’ятисекундних звукових сигналів, при цьому вона може обдурити системи розпізнавання голосу за допомогою всього десяти п’ятисекундних семплів.

Deep Voice точно імітує тембр і інтонації голосу, що робить  вироблені їм звуки як справжні, і, на думку творців, система знайде широке застосування в абсолютно різних областях. Наприклад, вона може бути використана для створення персоналізованих цифрових помічників, надання послуг з автоматичного синхронного перекладу, озвучування книг, фільмів і відеоігор. Більш того, нейромережа полегшить життя тим, хто з якихось причин втратив можливість говорити, і скрасить самотність дітей, читаючи їм казки на ніч, коли батьки поїхали у відрядження. Цікаво, що Deep Voice вміє змінювати голос, роблячи його чоловічим замість жіночого або додаючи йому іноземний акцент.

«Це справжній прорив з технічної точки зору, – каже один з авторів розробки Лео Зу (Leo Zou). – Нам вдалося вирішити складну генеративную проблему, а саме, ми змогли синтезувати живу мову з усіма її особливостями ».

Раніше канадськими розробниками був створений схожий голосовий сервіс під назвою Lyrebird. Він стискає всі індивідуальні мовні характеристики в дуже короткий запис, відтворюючи 1000 пропозицій всього за півсекунди. Система легко копіює будь-які звуки, починаючи від «дзижчання» бензопили і закінчуючи співом тропічних птахів, а також може генерувати нові голоси і додавати старим певний тон: сердитий, веселий, співчуваючий. Lyrebird, також як і Deep Voice, застосовується для роботи голосових помічників, озвучування мультимедійних продуктів і синтезу мови людей з обмеженими можливостями.

Правда, у обох технологій є загальна проблема: можливо, ними захочуть скористатися шахраї, щоб вводити людей в оману або обманювати програми, що працюють на основі розпізнавання мови. А юристи побоюються, що незабаром аудіозаписи перестануть бути доказом в ході судових процесів.

admin

Останні статті

Резонанс: прояви і застосування

Резонанс - це фізичне явище, яке виникає тоді, коли частота зовнішнього періодичного впливу збігається або…

2 тижні тому назад

Як створити резервну копію у WhatsApp: покрокова інструкція

Резервне копіювання у WhatsApp є однією з найважливіших функцій, яка допомагає зберегти особисті повідомлення, файли,…

1 місяць тому назад

Як створити резервну копію у Viber: покрокова інструкція

Резервне копіювання у Viber дозволяє зберегти всі ваші чати, фото, відео та файли, щоб у…

2 місяці тому назад

Принцип дії акумуляторів: як хімія перетворюється на електроенергію

Акумулятори стали невід’ємною частиною сучасного життя. Вони живлять смартфони, автомобілі, бездротові інструменти, системи зберігання енергії…

2 місяці тому назад

Дослід Штерна: як магнітний момент атомів змінив уявлення про квантову фізику

Дослід Штерна (часто його згадують як «дослід Штерна–Герлаха») – один із тих експериментів, які буквально…

2 місяці тому назад

Алергія на людей: чому деякі люди дійсно можуть бути чутливими до людських рідин

Фраза «У мене алергія на тебе» зазвичай звучить як жарт або слоган для футболки, проте…

2 місяці тому назад