Категорії: Наука

Штучний інтелект буває ненадійним, надто впевненим і однобоким

Нове дослідження показує, що багато AI-інструментів, які обіцяють швидко допомагати з пошуком інформації або відповідями на складні питання, не завжди заслуговують на довіру.

Що виявили вчені

Команда дослідників з підрозділу Salesforce AI Research протестувала сервіси Perplexity, You.com, Bing Chat та GPT-4.5 за спеціальним фреймворком DeepTRACE. Він оцінював вісім ключових параметрів, серед яких точність цитувань, якість доказів, схильність до однобокості та рівень «самовпевненості». Результати виявилися невтішними: приблизно третина тверджень, які наводили ці системи, не мала належного підтвердження з боку зазначених джерел. Для GPT-4.5 показник проблемних відповідей сягнув майже половини всіх перевірених випадків.

Ще одна тривожна знахідка стосується тем, що мають кілька точок зору. На питання, де важливо представити різні аргументи, штучний інтелект часто обирав лише один бік дискусії й подавав його як беззаперечну істину. Дослідники відзначили, що така однобокість поєднується з високою впевненістю у відповідях, що може вводити користувачів в оману. Крім того, значна частина наведених посилань виявилася некоректною або нерелевантною: залежно від сервісу правильними були лише 40–80 відсотків цитувань.

Якщо коротко то:

  • Дослідники з Salesforce AI Research та інші проаналізували такі сервіси, як Perplexity, You.com, Bing Chat та GPT-4.5 у рамках фреймворку DeepTRACE, який тестував їх за 8 ключовими критеріями: надмірна впевненість, однобокість, точність цитат, якість доказів тощо.
  • Близько одної третини тверджень у таких інструментах не мали достатньої підтримки від зазначених джерел. Для GPT-4.5 цей показник сягав 47 %.
  • При вирішенні запитань, які мають різні аргументи (дебатні теми), AI-системи часто давали однобокі відповіді, при цьому виглядаючи дуже впевнено.
  • Цитування джерел — ще одна проблема: в деяких системах лише 40-80 % посилань виявлялися коректними або релевантними.

Чому це важливо

Автори дослідження закликають до більшої прозорості в роботі таких систем, удосконалення механізмів перевірки фактів і забезпечення балансу різних точок зору. Без цих кроків, кажуть вони, зростатиме ризик поширення дезінформації навіть у середовищах, які здаються технологічно прогресивними й надійними.

  • Така поведінка може створювати інформаційні “бульбашки”, коли користувач бачить лише одну сторону дискусії та не отримує повного уявлення про тему.
  • Надмірна впевненість у поганій або неповній інформації може вести до помилкових висновків — особливо коли AI використовується в дослідженнях, освіті, медіа.
  • Потрібно більше прозорості, перевірок, можливості бачити аргументи обох сторін, а також кращі методи підтвердження достовірності та джерел інформації.
admin

Останні статті

Топ-10 фільмів 2024 року, які найбільше шукали українці

Підсумки року від Google «Year in Search 2024» показують, які стрічки найбільше хвилювали глядачів в…

56 хвилин тому назад

Топ фільмів для тих, хто вивчає англійську: найкращі стрічки для студентів ESL

Перегляд кіно англійською — це не просто розвага, а й один з найефективніших способів відточити…

2 дні тому назад

Солоний лід: нове можливе джерело енергії

Група науковців з Університету Сіань Цзятунг у Китаї зробила відкриття, яке може змінити уявлення про…

2 дні тому назад

Древній Марс: “шоу” геологічних різновидів — що нового знайшов марсохід Perseverance

Марсохід Perseverance зробив нові цікаві відкриття під час досліджень кратера Джезеро, які можуть допомогти відновити…

2 дні тому назад

Дим від пожеж: що кажуть нові дослідження про ризики для здоров’я та передчасні смерті

За останніми науковими дослідженнями, дим від лісових пожеж, посилених змінами клімату, може спричинити значно більше…

3 дні тому назад

Сатурн і Нептун скоро будуть найяскравішими на небі

Найближчими днями два газові гіганти — Сатурн і Нептун — досягнуть максимальної яскравості, і любителям…

4 дні тому назад