Нове дослідження від OpenAI, провідної компанії у галузі штучного інтелекту, що стоїть за такими відомими проєктами, як ChatGPT, проливає світло на точні причини, чому великі мовні моделі (ВММ) здатні вигадувати інформацію, що в термінології штучного інтелекту відоме як “галюцинації”. Це дослідження також викриває обставини, через які ця проблема може залишатися невирішеною для пересічних споживачів.
Представлена робота надає найретельніше математичне обґрунтування того, чому ці моделі впевнено стверджують неправду. Вона демонструє, що “галюцинації” є не просто прикрим побічним ефектом сучасних методів навчання штучного інтелекту, а математично неминучим явищем. Це питання частково можна пояснити помилками у вихідних даних, що використовуються для навчання ШІ. Проте, застосовуючи математичний аналіз процесу навчання систем штучного інтелекту, дослідники довели, що навіть за ідеальних навчальних даних проблема все одно зберігається.
Спосіб, яким великі мовні моделі, як-от ChatGPT – велика мовна модель, здатна генерувати текст, відповідати на запитання та підтримувати розмови – відповідають на запити, полягає у передбаченні по одному слову в реченні, базуючись на ймовірностях. Це природно породжує помилки. Насправді, дослідники показали, що загальний рівень помилок при генеруванні речень щонайменше вдвічі вищий, ніж рівень помилок, який мала б та сама система штучного інтелекту при простому питанні “так/ні”, оскільки помилки можуть накопичуватися протягом кількох передбачень. Іншими словами, показники галюцинацій фундаментально обмежені тим, наскільки добре системи ШІ можуть відрізняти правильні відповіді від неправильних. Оскільки ця проблема класифікації є складною для багатьох галузей знань, галюцинації стають неминучими.
Виявляється також, що чим рідше модель зустрічає певний факт під час навчання, тим більша ймовірність того, що вона “галюцинуватиме”, коли її запитають про це. Наприклад, щодо днів народження відомих особистостей було виявлено, що якщо дні народження 20% таких людей зустрічаються лише один раз у навчальних даних, то базові моделі повинні помилятися щонайменше у 20% запитів про дні народження.
І дійсно, коли дослідники запитали найсучасніші моделі про день народження Адама Калая – одного з авторів цієї наукової роботи, відомого математика і дослідника в галузі ШІ – модель DeepSeek-V3 впевнено надала три різні невірні дати під час окремих спроб: “03-07”, “15-06” та “01-01”. Правильна ж дата припадає на осінь, тож жодна з цих відповідей не була навіть близькою.
Пастка оцінювання
Ще більшу стурбованість викликає аналіз у статті щодо того, чому “галюцинації” зберігаються, попри зусилля після навчання (наприклад, надання великого обсягу людського зворотного зв’язку на відповіді ШІ до його публічного випуску). Автори вивчили десять основних тестів для оцінювання штучного інтелекту, включно з тими, що використовуються такими гігантами, як Google та OpenAI, а також провідні рейтингові таблиці моделей ШІ. Це виявило, що дев’ять із цих тестів використовують бінарні системи оцінювання, які нараховують нуль балів за вираження ШІ невпевненості.
Це створює те, що автори назвали “епідемією” покарання за чесні відповіді. Коли система ШІ відповідає “Я не знаю”, вона отримує таку ж оцінку, як і за надання абсолютно невірної інформації. Оптимальна стратегія за такого оцінювання стає очевидною: завжди вгадувати. Дослідники доводять це математично. Якими б не були шанси на правильну відповідь, очікувана оцінка за вгадування завжди перевищує оцінку за утримання від відповіді, коли оцінювання використовує бінарну систему.
Рішення, яке б зруйнувало все
OpenAI пропонує таке рішення: система ШІ має враховувати власну впевненість у відповіді, перш ніж її надавати, і відповідні оцінювальні стандарти мають враховувати це. Тоді ШІ можна було б запитати, наприклад: “Відповідай лише тоді, якщо ти впевнений більш ніж на 75%, оскільки за помилки нараховується 3 штрафні бали, тоді як за правильні відповіді — 1 бал”.
Математична база дослідників OpenAI показує, що за відповідних порогів впевненості системи штучного інтелекту природно виражали б невизначеність, а не вгадували. Це призвело б до зменшення кількості “галюцинацій”. Однак проблема полягає в тому, як це вплине на досвід користувача.
Уявіть собі наслідки, якби ChatGPT почав відповідати “Я не знаю” навіть на 30% запитів — це консервативна оцінка, заснована на аналізі фактичної невизначеності у навчальних даних. Користувачі, звиклі отримувати впевнені відповіді практично на будь-яке запитання, ймовірно, швидко відмовилися б від таких систем. Автор статті наводить власний приклад з проєкту моніторингу якості повітря в Солт-Лейк-Сіті, Юта, великому місті в США. Коли система позначає невизначеність вимірювань під час несприятливих погодних умов або калібрування обладнання, спостерігається менша взаємодія з користувачами порівняно з відображенням впевнених показань, навіть якщо ці впевнені показання виявляються неточними під час перевірки.
Проблема обчислювальної економіки
Зменшити “галюцинації” за допомогою висновків, викладених у статті, не складно. Встановлені методи кількісної оцінки невизначеності, такі як Байєсівська статистика та Теорія рішень, існують вже десятиліттями. Вони могли б використовуватися для надання достовірних оцінок невизначеності та спрямування ШІ на прийняття більш виважених рішень.
Однак, навіть якщо вдасться подолати проблему незадоволеності користувачів такою невизначеністю, існує більша перешкода: обчислювальна економіка. Мовні моделі, що враховують невизначеність, вимагають значно більших обчислень, ніж сьогоднішній підхід, оскільки вони повинні оцінювати кілька можливих відповідей і оцінювати рівні впевненості. Для системи, що обробляє мільйони запитів щодня, це означає значно вищі експлуатаційні витрати.
Більш складні підходи, такі як активне навчання, коли системи штучного інтелекту ставлять уточнюючі запитання для зменшення невизначеності, можуть підвищити точність, але ще більше збільшують обчислювальні вимоги. Такі методи добре працюють у спеціалізованих галузях, як-от проєктування мікросхем, де неправильні відповіді коштують мільйони доларів і виправдовують значні обчислення. Для споживчих застосунків, де користувачі очікують миттєвих відповідей, економічна доцільність стає непомірною.
Розрахунки різко змінюються для систем ШІ, що керують важливими бізнес-операціями або економічною інфраструктурою. Коли агенти ШІ обробляють логістику ланцюгів постачання, фінансову торгівлю або медичну діагностику, вартість “галюцинацій” значно перевищує витрати на те, щоб моделі вирішували, чи вони занадто невпевнені. У цих галузях запропоновані в статті рішення стають економічно доцільними — навіть необхідними. Невпевнені агенти ШІ просто коштуватимуть дорожче.
Однак, споживчі застосунки все ще домінують у пріоритетах розвитку штучного інтелекту. Користувачі хочуть системи, які надають впевнені відповіді на будь-яке запитання. Стандарти оцінювання винагороджують системи, які вгадують, а не виражають невизначеність. Обчислювальні витрати сприяють швидким, надмірно впевненим відповідям, а не повільним, невпевненим.
Зниження енерговитрат на кожен “токен” (одиницю тексту, що обробляється) та розвиток архітектур чипів можуть з часом зробити дешевше для штучного інтелекту вирішувати, чи достатньо він впевнений, щоб відповісти на запитання. Проте відносно велика кількість обчислень, необхідних порівняно з сьогоднішнім вгадуванням, залишиться, незалежно від абсолютної вартості обладнання.
Коротше кажучи, дослідження OpenAI ненавмисно висвітлює неприємну істину: бізнесові стимули, що рухають розвиток споживчого ШІ, залишаються фундаментально неузгодженими зі зменшенням “галюцинацій”. Доки ці стимули не зміняться, “галюцинації” зберігатимуться.
