Категорії: Наука

Штучний інтелект буває ненадійним, надто впевненим і однобоким

Нове дослідження показує, що багато AI-інструментів, які обіцяють швидко допомагати з пошуком інформації або відповідями на складні питання, не завжди заслуговують на довіру.

Зміст

Що виявили вчені

Команда дослідників з підрозділу Salesforce AI Research протестувала сервіси Perplexity, You.com, Bing Chat та GPT-4.5 за спеціальним фреймворком DeepTRACE. Він оцінював вісім ключових параметрів, серед яких точність цитувань, якість доказів, схильність до однобокості та рівень «самовпевненості». Результати виявилися невтішними: приблизно третина тверджень, які наводили ці системи, не мала належного підтвердження з боку зазначених джерел. Для GPT-4.5 показник проблемних відповідей сягнув майже половини всіх перевірених випадків.

Ще одна тривожна знахідка стосується тем, що мають кілька точок зору. На питання, де важливо представити різні аргументи, штучний інтелект часто обирав лише один бік дискусії й подавав його як беззаперечну істину. Дослідники відзначили, що така однобокість поєднується з високою впевненістю у відповідях, що може вводити користувачів в оману. Крім того, значна частина наведених посилань виявилася некоректною або нерелевантною: залежно від сервісу правильними були лише 40–80 відсотків цитувань.

Якщо коротко то:

Дослідники з Salesforce AI Research та інші проаналізували такі сервіси, як Perplexity, You.com, Bing Chat та GPT-4.5 у рамках фреймворку DeepTRACE, який тестував їх за 8 ключовими критеріями: надмірна впевненість, однобокість, точність цитат, якість доказів тощо.
Близько одної третини тверджень у таких інструментах не мали достатньої підтримки від зазначених джерел. Для GPT-4.5 цей показник сягав 47 %.
При вирішенні запитань, які мають різні аргументи (дебатні теми), AI-системи часто давали однобокі відповіді, при цьому виглядаючи дуже впевнено.
Цитування джерел — ще одна проблема: в деяких системах лише 40-80 % посилань виявлялися коректними або релевантними.

Чому це важливо

Автори дослідження закликають до більшої прозорості в роботі таких систем, удосконалення механізмів перевірки фактів і забезпечення балансу різних точок зору. Без цих кроків, кажуть вони, зростатиме ризик поширення дезінформації навіть у середовищах, які здаються технологічно прогресивними й надійними.

Така поведінка може створювати інформаційні “бульбашки”, коли користувач бачить лише одну сторону дискусії та не отримує повного уявлення про тему.
Надмірна впевненість у поганій або неповній інформації може вести до помилкових висновків — особливо коли AI використовується в дослідженнях, освіті, медіа.
Потрібно більше прозорості, перевірок, можливості бачити аргументи обох сторін, а також кращі методи підтвердження достовірності та джерел інформації.

admin