Ми очікували самокеровані автомобілі та роботів-домогосподарок, але натомість стали свідками тріумфу систем штучного інтелекту, здатних перемагати нас у шахах, аналізувати величезні масиви тексту та складати сонети. Це стало однією з великих несподіванок сучасної епохи: фізичні завдання, легкі для людини, виявилися надзвичайно складними для роботів, тоді як алгоритми дедалі частіше здатні імітувати наш інтелект.
Ще одна несподіванка, яка тривалий час спантеличувала дослідників, — це дивна, властива лише цим алгоритмам здатність до творчості.
Дифузійні моделі, які є основою для інструментів генерації зображень, таких як DALL·E, Imagen та Stable Diffusion, розроблені для створення точних копій зображень, на яких вони були навчені. Проте на практиці вони, здається, імпровізують, поєднуючи елементи всередині зображень для створення чогось нового — не просто безглуздих кольорових плям, а цілісних зображень із семантичним значенням. Це той самий «парадокс» дифузійних моделей, як зазначив Джуліо Біролі (Giulio Biroli), дослідник ШІ та фізик з Вищої нормальної школи (École Normale Supérieure) у Парижі – одного з найпрестижніших вищих навчальних закладів Франції, відомого своїми видатними випускниками. Він стверджує: «Якби вони працювали ідеально, вони б просто запам’ятовували. Але вони цього не роблять – вони насправді здатні створювати нові зразки».
Для генерації зображень дифузійні моделі використовують процес, відомий як усунення шуму (denoising). Вони перетворюють зображення на цифровий шум (незв’язну сукупність пікселів), а потім збирають його заново. Це схоже на те, якби картину неодноразово пропускали через шредер, поки не залишиться лише купа дрібного пилу, а потім знову збирали шматочки докупи. Протягом багатьох років дослідники дивувалися: якщо моделі просто збирають, то як з’являється новизна? Це все одно, що зібрати подрібнену картину в абсолютно новий витвір мистецтва.
Тепер два фізики зробили приголомшливу заяву: саме технічні недосконалості в самому процесі усунення шуму призводять до творчості дифузійних моделей. У своїй статті, яка буде представлена на Міжнародній конференції з машинного навчання 2025 року, дует розробив математичну модель навчених дифузійних моделей, щоб показати, що їхня так звана творчість насправді є детермінованим процесом – прямим, неминучим наслідком їхньої архітектури.
Висвітлюючи «чорну скриньку» дифузійних моделей, нове дослідження може мати значні наслідки для майбутніх розробок у галузі штучного інтелекту – і, можливо, навіть для нашого розуміння людської творчості. «Справжня перевага цієї роботи полягає в тому, що вона робить дуже точні прогнози щодо чогось дуже нетривіального», — сказав Лука Амброгіоні (Luca Ambrogioni), комп’ютерний вчений з Університету Радбоуд (Radboud University) у Нідерландах, провідного університету, відомого своїми дослідженнями в галузі нейронаук та ШІ.
Мейсон Камб (Mason Kamb), аспірант, що вивчає прикладну фізику у Стенфордському університеті – одному з найпрестижніших університетів світу, розташованому в Каліфорнії, США, та провідний автор нової роботи, давно захоплювався морфогенезом: процесами, за допомогою яких живі системи самоорганізуються.
Одним із способів зрозуміти розвиток ембріонів у людей та інших тварин є так званий візерунок Тюрінга (Turing pattern), названий на честь математика 20-го століття Алана Тюрінга. Алан Тюрінг – британський математик, логік, криптограф, один із творців сучасної комп’ютерної науки та штучного інтелекту. Його візерунки пояснюють, як групи клітин можуть організовуватися в окремі органи та кінцівки. Примітно, що ця координація відбувається на локальному рівні. Немає жодного «керівника», який би наглядав за трильйонами клітин, щоб переконатися, що всі вони відповідають кінцевому плану тіла. Окремі клітини, іншими словами, не мають якогось завершеного «креслення» тіла, на якому базувати свою роботу. Вони просто діють і вносять корективи у відповідь на сигнали від своїх сусідів. Ця система «знизу-вгору» зазвичай працює безперебійно, але час від часу вона дає збій – наприклад, утворюючи руки з зайвими пальцями.
Коли перші зображення, створені штучним інтелектом, почали з’являтися в мережі, багато з них виглядали як сюрреалістичні картини, зображуючи людей із зайвими пальцями. Це відразу ж нагадало Камбу про морфогенез: «Це виглядало як збій, якого можна очікувати від системи [знизу-вгору]», – сказав він.
Дослідники штучного інтелекту вже знали, що дифузійні моделі використовують кілька технічних спрощень при генерації зображень. Перше відоме як локальність: вони звертають увагу лише на одну групу, або «фрагмент», пікселів одночасно. Друге полягає в тому, що вони дотримуються суворого правила при генерації зображень: якщо ви змістите вхідне зображення всього на кілька пікселів у будь-якому напрямку, система автоматично пристосується, щоб зробити ту саму зміну в зображенні, яке вона генерує. Ця особливість, що називається трансляційною еквіваріантністю, є способом моделі зберігати цілісну структуру; без неї набагато складніше створювати реалістичні зображення.
Частково через ці особливості дифузійні моделі не звертають уваги на те, куди той чи інший фрагмент впишеться в кінцеве зображення. Вони просто зосереджуються на генерації одного фрагмента за раз, а потім автоматично поміщають їх на місце за допомогою математичної моделі, відомої як функція оцінки, яку можна вважати цифровим візерунком Тюрінга.
Довгий час дослідники вважали локальність та еквіваріантність лише обмеженнями процесу усунення шуму, технічними примхами, які заважали дифузійним моделям створювати ідеальні копії зображень. Вони не пов’язували їх із творчістю, яка розглядалася як явище вищого порядку. Їх чекав черговий сюрприз.
Створено локально
Камб розпочав свою аспірантську роботу у 2022 році в лабораторії Сурії Гангулі (Surya Ganguli), фізика зі Стенфорда, який також працює в галузі нейробіології та електротехніки. Того ж року OpenAI випустила ChatGPT, що викликало хвилю інтересу до галузі, відомої нині як генеративний ШІ. Поки розробники технологій працювали над створенням все більш потужних моделей, багато вчених залишалися зосередженими на розумінні внутрішньої роботи цих систем.
З цією метою Камб згодом розробив гіпотезу, що локальність та еквіваріантність призводять до творчості. Це породило спокусливу експериментальну можливість: якби він міг розробити систему, яка б лише оптимізувала локальність та еквіваріантність, вона мала б поводитися як дифузійна модель. Цей експеримент був у центрі його нової роботи, яку він написав спільно з Гангулі.
Камб і Гангулі назвали свою систему екваріантною локальною машиною оцінки (ELS machine). Це не навчена дифузійна модель, а скоріше набір рівнянь, які можуть аналітично передбачити склад усунутих від шуму зображень, базуючись виключно на механізмах локальності та еквіваріантності. Потім вони взяли низку зображень, перетворених на цифровий шум, і пропустили їх як через ELS-машину, так і через низку потужних дифузійних моделей, включаючи ResNets та UNets.
Результати були «шокуючими», сказав Гангулі: ELS-машина змогла ідентично відтворити результати навчених дифузійних моделей із середньою точністю 90% – результат, який «нечуваний у машинному навчанні», зауважив Гангулі.
Результати, схоже, підтверджують гіпотезу Камба. «Щойно ви нав’язуєте локальність, [творчість] стає автоматичною; вона повністю природно випливала з динаміки», — сказав він. Ті самі механізми, які обмежували вікно уваги дифузійних моделей під час процесу усунення шуму – змушуючи їх зосереджуватися на окремих фрагментах, незалежно від того, куди вони зрештою впишуться в кінцевий продукт – є тими самими, що забезпечують їхню творчість, виявив він. Феномен зайвих пальців, що спостерігається в дифузійних моделях, аналогічно був прямим побічним продуктом надмірної фіксації моделі на генерації локальних фрагментів пікселів без будь-якого ширшого контексту.
Експерти, опитані для цієї статті, загалом погодилися, що хоча робота Камба і Гангулі проливає світло на механізми, що стоять за творчістю в дифузійних моделях, багато чого залишається загадкою. Наприклад, великі мовні моделі та інші системи штучного інтелекту також, здається, виявляють творчість, але вони не використовують локальність та еквіваріантність. «Я думаю, що це дуже важлива частина історії, — сказав Біролі, — [але] це не вся історія».
Створення творчості
Вперше дослідники показали, як творчість дифузійних моделей можна розглядати як побічний продукт самого процесу усунення шуму, який можна математично формалізувати та передбачити з безпрецедентно високою точністю. Це майже так, ніби нейробіологи помістили групу художників у апарат МРТ і знайшли спільний нейронний механізм їхньої творчості, який можна було б записати у вигляді набору рівнянь.
Порівняння з нейронаукою може виходити за межі простої метафори: робота Камба і Гангулі також може надати розуміння «чорної скриньки» людського розуму. «Людська та штучна творчість можуть бути не такими вже й різними», — сказав Бенджамін Гувер (Benjamin Hoover), дослідник машинного навчання з Технологічного інституту Джорджії (Georgia Institute of Technology) та IBM Research – двох визначних установ у сфері технологічних досліджень. Він вивчає дифузійні моделі. «Ми збираємо речі на основі того, що ми відчуваємо, що ми мріяли, що ми бачили, чули або бажаємо. Штучний інтелект також просто збирає будівельні блоки з того, що він бачив і що його просили зробити». Як людська, так і штучна творчість, згідно з цим поглядом, можуть бути фундаментально вкорінені в неповному розумінні світу: ми всі робимо все можливе, щоб заповнити прогалини в наших знаннях, і час від часу ми створюємо щось нове та цінне. Можливо, саме це ми й називаємо творчістю.
