Все ще вважаєте комп’ютери бездушними бляшанками? Як би не так! Вони вже вчаться розпізнавати людські емоції такі як смуток, радість і гнів.
Всі людські почуття виявляються не в словах, а в виразі обличчя, яке показує набагато більше, ніж усвідомлює більшість з нас. Навіть якщо ми не хочемо розкривати свої думки, нас видає мова тіла, вираз обличчя. 90 відсотків комунікації протікає невербально – це може здивувати непрофесіоналів, але давно є основним правилом для фахівців з комунікації. Багато з цих сигналів ми навіть не в змозі контролювати, вони проявляються мимоволі і незалежно від нашого походження або культурного рівня.
Це особливо вірно для мікроекспрессій, виразів обличчя, які прослизають всього на частки секунди і не піддаються свідомому контролю. До того ж їх дуже складно імітувати, і тому вони вважаються досить надійною емоційною сигнальною системою. Недосвідченому оку вони, як правило, не помітні, а ось камера схоплює їх без проблем. Тут використовуються алгоритми так званих емоційних обчислень (Affective Computing), коли проводиться аналіз осіб по їх виразами, які зазвичай класифікуються за шести або семи категоріях.
За системою кодування лицьових рухів (англ. Facial Action Coding System (FACS)), розробленої в 70-х роках минулого століття Полом Екманом і Уоллесом Фрізеном, до них відносяться гнів і страх, обурення й огида, печаль, здивування і щастя . Більш просунуті системи використовують ще більш 20 вимірювальних величин. Міміка і емоції не залежать від культурних чинників, що і показали дослідження, проведені серед населення Папуа-Новій Гвінеї, далекого від засобів масової інформації та культурних впливів інших країн. Міміка і емоції однаково виражаються в усьому світі, вони універсальні і є вродженими.
Чи може штучний інтелект ідентифікувати зловмисників?
Тепер функціональність програм розширилася до такої міри, що вони здатні аналізувати знімки в режимі реального часу, що відкриває величезний спектр можливостей для їх застосування. З початку року Адміністрація транспортної безпеки США (TSA) в рамках пілотної програми тестує біометричні технології розпізнавання осіб, щоб звіряти особу пасажира з його документами.
Нескладно уявити, що штучний інтелект додатково використовується для розпізнавання емоцій, щоб, наприклад, визначити можливих терористів серед пасажирів. Компанії вже зараз використовують функцію розпізнавання емоцій для поліпшення показників свого бізнесу.
Disney заздалегідь знає, коли будуть сміятися глядачі
Кіноконцерн Disney використовує технологію розпізнавання осіб для оцінки емоційних реакцій публіки. Для відстеження міміки людей, які дивляться фільми, був розроблений алгоритм під назвою factorized variational autoencoders (FVAE). Уже після десятихвилинної аналізу особи глядача можна передбачити майбутні вираження цієї особи в подальшому ході перегляду.
FVAE розкладає зображення осіб глядачів у вигляді ряду чисел на підставі певних ознак: одне число для посмішки певної особи, інше – для широти розкриття очей і так далі. Команда Disney застосувала FVAE до більш ніж 3000 глядачів при перегляді кількох фільмів і визначила 68 точок вимірювання на кожну особу, що в підсумку дало 16 мільйонів окремих знімків осіб. При наявності достатнього обсягу інформації система може точно передбачити реакції людини вже через кілька хвилин спостереження.
До речі, технологія не обмежується одними лише особами. FVAE може, наприклад, проаналізувати, як дерева реагують на вітер в залежності від їх виду і розміру.
Голос теж видає емоції
Крім виразу обличчя і положення тіла наш емоційний стан видає і голос. Достатня підстава для дослідників в усьому світі, щоб попрацювати над можливостями автоматизованого розпізнавання емоцій.
Ще в 2016 році Меттью Фернандес і Акаш Крішнан, студенти Массачусетського технологічного інституту і Стенфордського університету, розробили алгоритм, який може розпізнати десятки емоцій по людській мові. Так званий алгоритм Simple Emotion відстежує акустичні характеристики звуків мови, такі як частота голосу, гучність і зміни тональності і порівнює їх з бібліотекою звуків і тонів. Він ідентифікує емоцію, знаходячи найближчу відповідність в каталозі.
Інструменти аналізу мови можуть бути цікаві для компаній, які хочуть підвищити рівень обслуговування своїх клієнтів. Як відомо, мало що може нервувати тих, що дзвонять на гарячу лінію більше, ніж спілкування з байдужим співробітником колл-центру або роботом після очікування з’єднання. І тут на допомогу приходить алгоритм, що дає в режимі реального часу зворотний зв’язок щодо емоційного стану абонента. Це може створити у абонента враження, що до нього поставилися серйозно і з розумінням. Для співробітників колл-центру це буде означати зниження рівня стресу. Цей інструмент також може використовуватися для забезпечення якості або навчання.
Як штучний інтелект читає «між рядків»
Дещо складніше йде справа з текстами. Як можна вивести з написаних слів і пропозицій почуття, з розумінням яких не завжди справляються і читачі. Бьярке Фельбо, датський стипендіат Массачусетського технологічного інституту, в 2017 році розробив особливо оригінальний спосіб навчання штучного інтелекту читання «між рядків». Його основним інструментом при цьому є емодзі.
Насправді, Фельбо хотів розробити систему, яка дозволяла б краще розпізнавати расистські пости в Twitter. Але незабаром він зрозумів, що багато записів неможливо вірно витлумачити без розуміння іронії або сарказму. Оскільки користувачі Twitter не задіюють в комунікації мову тіла або тональність голосу, їм потрібні інші засоби для додання правильного звучання своїх повідомлень: для цього вони використовують емодзі, пояснює Іяд Рахвал, науковий керівник Фельбо в Массачусетському технологічному інституті. «Нейронна мережа засвоїла зв’язок між певним способом вираження і емодзі».
Емодзі: увага, сарказм!
За допомогою алгоритму, який отримав назву DeepMoji, дослідники проаналізували 1,2 мільйона твітів, які містили в цілому 64 різних видів емодзі. Спочатку вони вчили систему передбачати, який емодзі буде використовуватися разом з певним повідомленням – в залежності від того, висловлює він щастя, смуток, сміх або щось ще. Після цього система навчилася розпізнавати сарказм на підставі наявного набору даних за відповідними категоріями прикладів.
Дослідники навіть надали штучному інтелекту власний сайт, щоб продемонструвати частини системи, яку складають емодзі. Програма автоматично прив’язує один або декілька відповідних емодзі до тексту англійською мовою і, здається, працює досить ефективно. Труднощі виникають тільки з твітами Дональда Трампа, які явно збивають Deepmoji з пантелику, так само, як і всіх інших читачів з плоті і крові.
Сенс і мета розпізнавання шаблона
Після того як стихне ажіотаж навколо нових технічних можливостей, залишиться питання про глибинний сенс розпізнавання емоцій. Адже машини, оснащені таким штучного інтелекту, які не виробляють ніяких почуттів, вони їх навіть не розуміють. Вони лише наполегливо і непохитно аналізують нескінченні ряди чисел. Найрізноманітніші форми вираження розкладаються для алгоритмів на зображення і графіки, які перевіряються на наявність шаблонів і особливостей за допомогою розпізнавання зображень. Це може дати людям ілюзію того, що вони мають справу з чуйним співрозмовником.
Такі програми, без сумніву, скоро зможуть пройти будь-який тест Тюрінга. Але цей успіх не в останню чергу пояснюється тим, що людське розуміння теж ґрунтується на розпізнаванні шаблонів і завжди шукає в незвичному щось знайоме. На цьому засновані всі тести Роршаха. Так що залишається побоювання, що тут буде закладена основа для ще більшого контролю або ще більш витончених маніпуляцій. Або надія на те, що розумне застосування все-таки буде знайдено.
Leave a Reply
Щоб відправити коментар вам необхідно авторизуватись.