ШІ, що мислить як мозок, перевершує ChatGPT: менше ресурсів, кращі результати

ШІ, що мислить як мозок, перевершує ChatGPT: менше ресурсів, кращі результати

У науковому світі з’явилася нова розробка у сфері штучного інтелекту – ієрархічна модель мислення (HRM), яка демонструє незвичайний підхід до обробки інформації, відмінний від більшості великих мовних моделей (ВММ), таких як відомий ChatGPT. Ця інноваційна модель, натхненна ієрархічною та різночасовою обробкою даних у людському мозку, досягає значно кращих результатів у провідних тестах продуктивності.

HRM була розроблена вченими компанії Sapient, що знаходиться в Сінгапурі – місті-державі, яке відоме як один з найдинамічніших глобальних центрів інновацій та високих технологій. Дослідники стверджують, що їхня модель здатна не тільки до кращої продуктивності, але й до ефективнішої роботи, оскільки вимагає значно менше параметрів та прикладів для навчання.

Ефективність та новітній підхід

Цікаво, що модель HRM має всього 27 мільйонів параметрів і використовує лише 1000 навчальних зразків. Для порівняння, більшість передових ВММ оперують мільярдами або навіть трильйонами параметрів. За деякими оцінками, нещодавно випущена GPT-5, наприклад, може мати від 3 до 5 трильйонів параметрів. Це підкреслює вражаючу ефективність нової розробки.

Вчені представили своє дослідження 26 червня на платформі arXiv. Ця онлайн-база даних слугує для публікації так званих “препринтів” — наукових статей, які ще не пройшли офіційного рецензування, але вже доступні для ознайомлення та обговорення спільнотою.

Новий спосіб мислення для штучного інтелекту

Коли дослідники випробували HRM у тесті ARC-AGI – відомому своїми складнощами випробуванні, що має на меті перевірити, наскільки моделі близькі до досягнення загального штучного інтелекту (ЗШІ), — система показала надзвичайні результати. Загальний штучний інтелект (ЗШІ) — це гіпотетичний тип інтелекту, що може розуміти, вивчати та застосовувати інтелект до широкого спектру проблем, як це робить людина, на відміну від сучасного “вузького” ШІ, який спеціалізується на конкретних завданнях.

У тесті ARC-AGI-1 модель HRM набрала 40,3%, тоді як OpenAI o3-mini-high показала 34,5%, Anthropic Claude 3.7 — 21,2%, а Deepseek R1 — 15,8%. У більш складному тесті ARC-AGI-2 HRM досягла 5% проти 3% у o3-mini-high, 1,3% у Deepseek R1 та 0,9% у Claude 3.7.

Більшість передових ВММ використовують так званий “ланцюг роздумів” (Chain-of-Thought, CoT), при якому складна проблема розбивається на кілька простіших проміжних етапів, що виражаються природною мовою. Цей підхід імітує процес людського мислення, розбиваючи складні завдання на зрозуміліші частини. Однак, за словами вчених Sapient, CoT має суттєві недоліки, такі як “крихке розкладання завдань, значні вимоги до даних та висока затримка”.

Натомість, HRM виконує послідовні завдання мислення за один прямий прохід, без явного контролю проміжних кроків, використовуючи два модулі. Один модуль високого рівня відповідає за повільне, абстрактне планування, тоді як модуль низького рівня обробляє швидкі та детальні обчислення. Це дуже схоже на те, як різні ділянки людського мозку інтегрують інформацію протягом різного часу – від мілісекунд до хвилин.

Модель функціонує шляхом застосування ітеративного уточнення — обчислювальної техніки, що підвищує точність рішення шляхом багаторазового доопрацювання початкового наближення. Це відбувається протягом кількох коротких “спалахів” мислення. Кожен такий “спалах” оцінює, чи варто продовжувати процес обдумування, чи вже можна надати “остаточну” відповідь на початковий запит.

HRM продемонструвала майже бездоганні результати у виконанні складних завдань, як-от комплексні головоломки судоку, з якими традиційні ВММ не справлялися, а також чудово впоралася з пошуком оптимальних шляхів у лабіринтах.

Хоча стаття ще не пройшла рецензування, організатори тесту ARC-AGI спробували відтворити результати самостійно, після того як вчені, що розробили модель, зробили її код відкритим на GitHub – платформі для спільної розробки програмного забезпечення.

Попри те, що їм вдалося відтворити заявлені показники, представники ARC-AGI у своєму блозі зазначили деякі несподівані висновки. Вони повідомили, що ієрархічна архітектура мала мінімальний вплив на продуктивність. Натомість, значні покращення були зумовлені малодокументованим процесом уточнення під час навчання моделі.

Поділіться з друзями