Штучний інтелект Google DeepMind навчився читати по губах краще, ніж будь-яка людина-фахівець в цій справі

Google DeepMind

Фахівці проекту DeepMind компанії Google і дослідники з Оксфордського університету спільними зусиллями навчили систему штучного інтелекту на базі нейронних мереж мистецтву читанні по губах.

Навчання системи проводилося шляхом “згодовування” їй 5 тисяч годин записів різних програм телеканалу BBC, включаючи Newsnight, BBC Breakfast і Question Time. І в результаті цього система штучного інтелекту стала здатною розпізнавати слова по рухах губ людини з такою точністю, яка є недосяжною для людей-фахівців в цій справі.

Після процедури навчання система штучного інтелекту виявилася здатною розшифровувати навіть найскладніші фрази, визначати слова, вимовлені людьми, які схильні “ковтати” закінчення слів, і людьми, що володіють не надто типовою мімікою їх особи. В якості тестового завдання з набору різних телепередач були обрані 200 випадкових фрагментів. Людина-професіонал зміг безпомилково розпізнати за все 12.4 відсотка слів, в той час, як штучний інтелект показав результат в 46.8 відсотка, беззастережно виграв не тільки у людини, але і у інших автоматичних систем читання по губах.

“Все це є величезним кроком на шляху до створення повністю автоматичних систем читання по губах “- розповідає Зіенг Жоу (Ziheng Zhou), вчений з університету Оулу, Фінляндія, -” І це стало можливим тільки завдяки величезному набору вихідних даних, на яких ця система була навчена “. Про величину набору вихідних даних говорить той факт, що у вищезгаданих 5 тисячах годин записів містилося близько 118 тисяч пропозицій, виголошених різними людьми, особи яких знімалися з різних ракурсів.

Успіх спільного заході дослідників з Оксфордського університету і компанії Google ґрунтується на дослідженнях оксфордських вчених, завдяки яким свого часу була створена система читання по губах GRID. В якості вихідних даних ця система використовувала дані про артикуляції людей при вимові 51 ключового унікального слова. Система компанії Google, навчена на наборі даних, що містить близько 17 500 унікальних слів, має набагато більш багатий набір вихідних даних, що відчутно позначається на якості її роботи.

Крім цього, система компанії Google була навчена на зразках реальної людської мови, а не на 33 тисячах синтетичних пропозицій, складених спеціально для навчання система GRID. Тому система Google менш сприйнятлива до особливостей кожної конкретної людини і до емоцій, які періодично дуже сильно проявляються на обличчі людини, що говорить.

В даний час фахівці Google і дослідники з Оксфордського університету готують використаний ними для навчання штучного інтелекту набір даних для того, щоб створити на його основі загальнодоступний навчальний ресурс. Цим ресурсом зможуть користуватися всі розробники систем автоматичного читання по губах, в тому числі група Яніса Ассаеля (Yannis Assael), яка займається розробкою системи LipNet. І, цілком ймовірно, що всі ці зусилля, врешті-решт, можуть привести до того, що побутові та споживчі електронні пристрої зможуть розуміти те, що ми говоримо їм, читаючи це по нашим губам.