Штучний інтелект навчили імітувати людський голос

Штучний інтелект навчили імітувати людський голос

Співробітники пекінської компанії Baidu створили роботизовану систему, яка відтворює людську мову, з точністю копіюючи її унікальні характеристики.

Технологія під назвою Deep Voice працює на основі машинного навчання: вона «тренувалася» на звуковому записі, що триває більше 800 годин і включає в себе близько 2400 різних голосів. Для ефективної роботи нейромережі потрібно близько 100 п’ятисекундних звукових сигналів, при цьому вона може обдурити системи розпізнавання голосу за допомогою всього десяти п’ятисекундних семплів.

Deep Voice точно імітує тембр і інтонації голосу, що робить  вироблені їм звуки як справжні, і, на думку творців, система знайде широке застосування в абсолютно різних областях. Наприклад, вона може бути використана для створення персоналізованих цифрових помічників, надання послуг з автоматичного синхронного перекладу, озвучування книг, фільмів і відеоігор. Більш того, нейромережа полегшить життя тим, хто з якихось причин втратив можливість говорити, і скрасить самотність дітей, читаючи їм казки на ніч, коли батьки поїхали у відрядження. Цікаво, що Deep Voice вміє змінювати голос, роблячи його чоловічим замість жіночого або додаючи йому іноземний акцент.

«Це справжній прорив з технічної точки зору, – каже один з авторів розробки Лео Зу (Leo Zou). – Нам вдалося вирішити складну генеративную проблему, а саме, ми змогли синтезувати живу мову з усіма її особливостями ».

Раніше канадськими розробниками був створений схожий голосовий сервіс під назвою Lyrebird. Він стискає всі індивідуальні мовні характеристики в дуже короткий запис, відтворюючи 1000 пропозицій всього за півсекунди. Система легко копіює будь-які звуки, починаючи від «дзижчання» бензопили і закінчуючи співом тропічних птахів, а також може генерувати нові голоси і додавати старим певний тон: сердитий, веселий, співчуваючий. Lyrebird, також як і Deep Voice, застосовується для роботи голосових помічників, озвучування мультимедійних продуктів і синтезу мови людей з обмеженими можливостями.

Правда, у обох технологій є загальна проблема: можливо, ними захочуть скористатися шахраї, щоб вводити людей в оману або обманювати програми, що працюють на основі розпізнавання мови. А юристи побоюються, що незабаром аудіозаписи перестануть бути доказом в ході судових процесів.

Залиш коментар першим

Залишити коментар