Категорії: Наука

Штучний інтелект буває ненадійним, надто впевненим і однобоким

Нове дослідження показує, що багато AI-інструментів, які обіцяють швидко допомагати з пошуком інформації або відповідями на складні питання, не завжди заслуговують на довіру.

Що виявили вчені

Команда дослідників з підрозділу Salesforce AI Research протестувала сервіси Perplexity, You.com, Bing Chat та GPT-4.5 за спеціальним фреймворком DeepTRACE. Він оцінював вісім ключових параметрів, серед яких точність цитувань, якість доказів, схильність до однобокості та рівень «самовпевненості». Результати виявилися невтішними: приблизно третина тверджень, які наводили ці системи, не мала належного підтвердження з боку зазначених джерел. Для GPT-4.5 показник проблемних відповідей сягнув майже половини всіх перевірених випадків.

Ще одна тривожна знахідка стосується тем, що мають кілька точок зору. На питання, де важливо представити різні аргументи, штучний інтелект часто обирав лише один бік дискусії й подавав його як беззаперечну істину. Дослідники відзначили, що така однобокість поєднується з високою впевненістю у відповідях, що може вводити користувачів в оману. Крім того, значна частина наведених посилань виявилася некоректною або нерелевантною: залежно від сервісу правильними були лише 40–80 відсотків цитувань.

Якщо коротко то:

  • Дослідники з Salesforce AI Research та інші проаналізували такі сервіси, як Perplexity, You.com, Bing Chat та GPT-4.5 у рамках фреймворку DeepTRACE, який тестував їх за 8 ключовими критеріями: надмірна впевненість, однобокість, точність цитат, якість доказів тощо.
  • Близько одної третини тверджень у таких інструментах не мали достатньої підтримки від зазначених джерел. Для GPT-4.5 цей показник сягав 47 %.
  • При вирішенні запитань, які мають різні аргументи (дебатні теми), AI-системи часто давали однобокі відповіді, при цьому виглядаючи дуже впевнено.
  • Цитування джерел — ще одна проблема: в деяких системах лише 40-80 % посилань виявлялися коректними або релевантними.

Чому це важливо

Автори дослідження закликають до більшої прозорості в роботі таких систем, удосконалення механізмів перевірки фактів і забезпечення балансу різних точок зору. Без цих кроків, кажуть вони, зростатиме ризик поширення дезінформації навіть у середовищах, які здаються технологічно прогресивними й надійними.

  • Така поведінка може створювати інформаційні “бульбашки”, коли користувач бачить лише одну сторону дискусії та не отримує повного уявлення про тему.
  • Надмірна впевненість у поганій або неповній інформації може вести до помилкових висновків — особливо коли AI використовується в дослідженнях, освіті, медіа.
  • Потрібно більше прозорості, перевірок, можливості бачити аргументи обох сторін, а також кращі методи підтвердження достовірності та джерел інформації.
admin

Останні статті

Принцип дії акумуляторів: як хімія перетворюється на електроенергію

Акумулятори стали невід’ємною частиною сучасного життя. Вони живлять смартфони, автомобілі, бездротові інструменти, системи зберігання енергії…

3 дні тому назад

Дослід Штерна: як магнітний момент атомів змінив уявлення про квантову фізику

Дослід Штерна (часто його згадують як «дослід Штерна–Герлаха») – один із тих експериментів, які буквально…

3 дні тому назад

Алергія на людей: чому деякі люди дійсно можуть бути чутливими до людських рідин

Фраза «У мене алергія на тебе» зазвичай звучить як жарт або слоган для футболки, проте…

1 тиждень тому назад

Що означають цифри тостері — і це не хвилинии

Можливо, ви давно думали, що числа на тостері позначають хвилини, або ступінь «прожарювання». Проте нове…

2 тижні тому назад

Чому всі континенти «збилися докупи»: вчені пояснили нерівномірний розподіл суші на Землі

Коли ми дивимося на карту світу, може здатися, що материки рівномірно розподілені по всій планеті.…

4 тижні тому назад

Найкращі фільми про школу з усього світу

Шкільне життя - це справжній кіносценарій: перше кохання, дружба, булінг, конфлікти з учителями, спроби знайти…

1 місяць тому назад