Людська та штучна творчість: у чому насправді полягає різниця (і чому стиль гіблі нас чогось вчить)
У 2024-2025 роках дебати про штучний інтелект і авторське право різко посилилися. Це вже не теоретичні дискусії: The New York Times подала до суду на OpenAI за порушення авторських прав (грудень 2023 року), Getty Images - на Stability AI, а тисячі художників подали колективні позови. ШІ-компанії відповідають, що їхні системи "навчаються" так само, як і люди - але чи так це насправді?
Людська творчість завжди розвивалася через зв'язки: Шекспір надихався історичними хроніками та народними казками, Ван Гог вивчав японські гравюри, Бітлз починали з американського року. Митці завжди переосмислюють попередні роботи. Штучний інтелект, скажімо, технологічні компанії, робить те саме. Але випадок зі "стилем Гіблі" показує, наскільки спрощеним є цей наратив.
Введіть "Ghibli style" в Midjourney або DALL-E, і ви отримаєте зображення, разюче схожі на шедеври Хаяо Міядзакі: пастельні кольори, пухнасті хмаринки, мрійливі пейзажі, персонажі з великими очима. Це технічно вражає. Але й глибоко проблематично.
Студії Ghibli знадобилися десятиліття, щоб розробити цю особливу естетику: точний вибір кольорової палітри, традиційні техніки анімації та художню філософію, вкорінену в японській культурі та особистому баченні Міядзакі. Коли ШІ-модель відтворює цей "стиль" за лічені секунди, чи справді вона "навчається", як Міядзакі вчився на диснеївській анімації та японській манзі? Чи це просто рекомбінація візуальних патернів, витягнутих з тисяч кадрів Ghibli без дозволу?
Різниця не філософська - вона юридична та економічна. Згідно зі Стенфордським аналізом, опублікованим в arXiv (Carlini et al., 2023), дифузійні моделі, такі як Stable Diffusion, можуть регенерувати майже ідентичні зображення з навчального набору приблизно у 3 відсотках випадків, коли їм дають конкретні підказки. Це не "натхнення", це зберігання і відтворення.
Польський цифровий художник Грег Рутковський виявив, що його ім'я з'явилося в 1,2 мільйонах підказок на Stable Diffusion - ненавмисно ставши одним з найбільш затребуваних "стилів", не даючи на це згоди і не отримуючи компенсації. Як він сказав в інтерв'ю MIT Technology Review: "Я не відчуваю себе задоволеним. Я відчуваю, що в мене вкрали те, що я створював роками.
Масштаби навчання ШІ досягли безпрецедентних масштабів. LAION-5B, один з найпоширеніших наборів даних для моделей зображень, містить 5,85 мільярда пар зображення-текст, зібраних з інтернету, включно з творами, захищеними авторським правом. GPT-4 навчався на величезних масивах інтернету, включаючи платні статті, книги і запатентовані програмні коди.
Поточні великі судові справи:
ШІ-компанії захищають цю практику, посилаючись на "добросовісне використання" згідно із законодавством США: вони стверджують, що навчання є "трансформаційним" і не замінює оригінальний ринок. Але кілька судів оскаржують таку інтерпретацію.
Суддя Кетрін Форрест у справі Getty v. Stability AI у січні 2024 року відхилила клопотання про припинення справи, дозволивши їй продовжити розгляд: "Питання про те, чи є навчання АІ-моделей добросовісним використанням, є складним і вимагає ретельного вивчення фактів. Переклад: ШІ-компанії не можуть просто посилатися на добросовісне використання і покінчити з цим.
Зіткнувшись з юридичним тиском, АІ-компанії почали домовлятися про ліцензії. OpenAI уклав угоди з деякими з них:
Google підписав подібні угоди з Reddit, Stack Overflow та різними видавництвами. Anthropic домовився з видавцями про використання книг.
Але ці угоди стосуються лише великих видавництв, які мають можливість вести переговори. Мільйони індивідуальних творців - художників, фотографів, письменників-фрілансерів - залишаються без винагороди за роботи, використані у вже завершеному навчанні.
Наратив "ШІ навчається, як людина" технічно оманливий. Давайте подивимося на фундаментальні відмінності:
Масштаб і швидкість: Людина-художник вивчає, можливо, сотні або тисячі творів за все життя. GPT-4 був навчений на трильйонах слів. Стабільна дифузія над мільярдами зображень. Масштаб незрівнянний і перевищує будь-яке розумне визначення поняття "натхнення".
Семантичне розуміння: Коли Ван Гог вивчав японські гравюри, він не механічно копіював візуальні патерни - він розумів основні естетичні принципи (використання негативного простору, асиметрична композиція, акцент на природі) і переосмислював їх через своє європейське постімпресіоністичне бачення. Його роботи є свідомими культурними синтезами.
Моделі штучного інтелекту не "розуміють" у людському розумінні. Як пояснює Мелані Мітчелл, професор Інституту Санта-Фе, у своїй книзі "Штучний інтелект: посібник для мислячих людей": "Системи глибокого навчання досягають успіху в розпізнаванні образів, але їм бракує розуміння причинно-наслідкових зв'язків, абстрактних міркувань або ментальних моделей світу. Stable Diffusion не "розуміє", що робить Ghibli особливим - вона витягує статистичні кореляції між мільйонами пікселів, позначених як "стиль Ghibli".
Творча навмисність: Люди-митці роблять навмисний творчий вибір, заснований на особистому баченні, посланні, яке вони хочуть передати, емоціях, які вони хочуть викликати. Міядзакі включає екологічні теми, пацифізм, фемінізм у свої фільми - свідомий моральний та мистецький вибір.
ШІ генерує на основі статистичних ймовірностей: "Дано підказку X і навчальний набір Y, яка конфігурація пікселів найбільш вірогідна?". Тут немає ні наміру, ні повідомлення, ні бачення. Як писав Тед Чанг у The New Yorker: "ChatGPT - це розмитий jpeg Інтернету" - стиснення з втратами, яке втрачає саме ті якості, які роблять оригінальний контент цінним.
Трансформація проти рекомбінації: Пабло Пікассо вивчав африканські маски, але створив кубізм - абсолютно нову художню течію, яка переосмислила просторову репрезентацію в живописі. Трансформація була радикальною та оригінальною.
Генеративні моделі ШІ працюють шляхом інтерполяції в латентному просторі: вони рекомбінують елементи навчального набору в нові конфігурації, але залишаються прив'язаними до статистичного розподілу даних, на яких вони були навчені. Вони не можуть винайти справді нову естетику, яка порушує вивчені статистичні закономірності. Як показало дослідження Массачусетського технологічного інституту (Shumailov et al., 2023), моделі, багаторазово навчені на попередніх результатах ШІ, поступово вироджуються - це явище називається "колапс моделі".
Ось головний парадокс: ШІ може генерувати результати, які виглядають оригінально (жодна людина ніколи раніше не бачила цього конкретного зображення в стилі Ghibli), але є статистично похідними (вони є інтерполяцією існуючих шаблонів). Це поверхнева форма оригінальності без фундаментальних інновацій.
Це має глибокі наслідки. Як стверджував філософ Джон Серль у своєму знаменитому "аргументі китайської кімнати": симулювати когнітивний процес - не те саме, що володіти ним. ШІ може симулювати творчість, не будучи творчим у людському розумінні цього терміну.
Зіткнувшись з протиріччями, розробляються різні рішення:
Інструменти захисту для художників:
Реєстри відмови:
Система компенсацій:
Урядові постанови:
Закон ЄС про штучний інтелект (набув чинності в серпні 2024 року) вимагає від постачальників генеративних моделей штучного інтелекту публікувати докладні зведення про використані навчальні дані, захищені авторським правом. Це перша спроба запровадити прозорість на законодавчому рівні.
Закон штату Теннессі ELVIS (березень 2024 року) спеціально захищає виконавців голосу та зовнішності від несанкціонованого використання в перших штатах США, які впровадили ШІ, спеціальним законодавством щодо глибоких голосових та візуальних підробок.
Пропозиції до Конгресу США включають запити на явну згоду на використання творів, захищених авторським правом (замість відмови), та створення публічних реєстрів навчальних наборів даних.
Два бачення майбутнього протистоять одне одному:
Оптимістичний погляд (AI-компанії): ШІ - це інструмент, який підсилює людську творчість, як Photoshop або музичні синтезатори. Митці використовуватимуть ШІ, щоб пришвидшити робочі процеси, дослідити варіації, подолати творчі блоки. З'являться гібридні форми мистецтва, де людина керує баченням, а ШІ виконує технічну частину.
Конкретні приклади вже існують: у фільмі "Іній" (2023) штучний інтелект створив фони та текстури, а художники-люди керували режисурою. Музиканти використовують Suno та Udio для створення фонограм для імпровізації. Письменники використовують GPT як "гумову качку" для обговорення сюжетних ідей.
Песимістичний погляд (багато творчих людей): ШІ перетворить творчість на товар, підриваючи економічну цінність творчої праці, доки не виживе лише еліта з винятковими навичками. Середньостатистичну творчість замінять дешеві генератори, знищуючи творчий середній клас - так само, як промислова автоматизація знищила ремісників у 19 столітті.
Попередні дані підтверджують це занепокоєння: на фріланс-платформах, таких як Fiverr, кількість запитів на послуги ілюстраторів та копірайтерів у 2023 році впала на 21% (дані Fiverr за 4-й квартал 2023 року), тоді як кількість пропозицій щодо "генерації мистецтва штучним інтелектом" просто вибухнула. У Грега Рутковського прямі комісійні впали на 40% відтоді, як його стиль став популярним на Stable Diffusion.
Істина, ймовірно, лежить десь посередині: деякі форми творчої роботи будуть автоматизовані (типові стокові ілюстрації, базовий копірайтинг), тоді як високооригінальна, концептуальна, культурно вкорінена творчість залишатиметься сферою людської діяльності.
Розрізнити вміст, створений людиною та ШІ, буде дедалі складніше. Вже сьогодні без водяних знаків або розкриття інформації часто неможливо відрізнити текст GPT-4 від людського тексту або зображення Midjourney від фотографій. Коли Sora (відеогенератор OpenAI) стане загальнодоступним, ця відмінність пошириться і на відео.
Це викликає глибокі питання щодо автентичності. Якщо згенероване штучним інтелектом зображення у стилі Ghibli викликає ті самі емоції, що й оригінал, чи має воно таку саму цінність? Філософ Вальтер Беньямін у своїй праці "Твір мистецтва в епоху його технічної відтворюваності" (1935) стверджував, що механічна відтворюваність руйнує "ауру" оригінального твору - його просторово-часову унікальність та автентичність.
Генеративний ШІ доводить цей аргумент до крайнощів: він не відтворює існуючі твори, а генерує нескінченні варіації, які імітують оригінал, не будучи ним. Це бодріярівський симулякр - копія без оригіналу.
Однак у свідомому творчому акті є щось незмінно людське: художник, який обирає кожен мазок пензля, знаючи, що він хоче донести, письменник, який вибудовує кожну фразу так, щоб викликати певні емоції, композитор, який навмисно створює напругу і розв'язку. ШІ може симулювати результат, але не процес - і, можливо, саме в процесі полягає справжня цінність творчості.
Як написала Studio Ghibli у своїй заяві (листопад 2023 року): "Душа наших фільмів полягає не у візуальному стилі, який можна скопіювати, а у творчих рішеннях, які ми приймаємо кадр за кадром, щоб розповісти історію, яку ми хочемо розповісти. Це неможливо автоматизувати".
Цінність мистецтва, зрештою, випливає з його здатності глибоко зв'язуватися з людським досвідом - змушувати нас відчувати, що нас розуміють, кидають виклик, трансформують. Чи може цього досягти штучний інтелект, залишається відкритим питанням. Але доки мистецтво створюється людьми для людей, говорячи про людський стан, воно зберігатиме те, що не може відтворити жоден алгоритм: автентичність пережитого досвіду, втіленого в естетичну форму.
Джерела: