Невидима індустрія, яка робить можливими ChatGPT, Stable Diffusion і всі інші сучасні системи штучного інтелекту
Коли ви використовуєте ChatGPT, щоб написати електронного листа або згенерувати зображення в Midjourney, ви рідко замислюєтеся над тим, що стоїть за "магією" штучного інтелекту. Але за кожною розумною відповіддю і кожним згенерованим зображенням стоїть багатомільярдна індустрія, про яку мало хто говорить: ринок даних для навчання ШІ.
Цей сектор, який, за даними MarketsandMarkets, досягне $9,58 млрд до 2029 року з темпами зростання 27,7% на рік, є справжнім двигуном сучасного штучного інтелекту. Але як саме працює цей прихований бізнес?
У світі даних для навчання ШІ домінують кілька компаній, про які більшість людей ніколи не чули:
Scale AI, найбільша компанія в галузі з часткою ринку 28%, нещодавно була оцінена в 29 мільярдів доларів після інвестицій Meta. Їхні корпоративні клієнти платять від 100 000 до кількох мільйонів доларів на рік за високоякісні дані.
Компанія Appen, що базується в Австралії, керує глобальною мережею з понад 1 мільйона фахівців у 170 країнах світу, які вручну тегують і курують дані для ШІ. Такі компанії, як Airbnb, John Deere та Procter & Gamble, користуються їхніми послугами для "навчання" своїх ШІ-моделей.
Паралельно існує екосистема з відкритим вихідним кодом, яку очолюють такі організації, як LAION (Large-scale Artificial Intelligence Open Network), німецька некомерційна організація, яка створила LAION-5B, набір даних з 5,85 мільярдів пар зображення-текст, що уможливило стабільну дифузію.
Common Crawl щомісяця випускає терабайти необроблених веб-даних, які використовуються для навчання GPT-3, LLaMA та багатьох інших мовних моделей.
Що не відомо широкому загалу, так це те, наскільки дорогим стало навчання сучасної АІ-моделі. За даними Epoch AI, за останні вісім років витрати зростали в 2-3 рази на рік.
Найдивовижніша цифра? За даними AltIndex.com, з 2020 року витрати на навчання ШІ зросли на 4300%.
Одне з найбільш суперечливих питань стосується використання матеріалів, захищених авторським правом. У лютому 2025 року суд штату Делавер у справі Thomson Reuters проти ROSS Intelligence постановив, що навчання ШІ може становити пряме порушення авторських прав, відхиливши захист "добросовісного використання".
Управління з авторських прав США опублікувало 108-сторінковий звіт, в якому дійшло висновку, що певні види використання не можна захищати як добросовісне, що відкриває шлях до потенційно величезних витрат на ліцензування для компаній, що займаються ШІ.
Дослідження MIT Technology Review показало, що DataComp CommonPool, один з найбільш широко використовуваних наборів даних, містить мільйони зображень паспортів, кредитних карток і свідоцтв про народження. За останні два роки його завантажили понад 2 мільйони разів, що створює величезні проблеми з конфіденційністю.
Експерти прогнозують, що до 2028 року більшість публічного тексту, створеного людиною, буде використовуватися в Інтернеті. Цей сценарій "піку даних" спонукає компанії до пошуку інноваційних рішень:
Каліфорнійський закон про прозорість Ш І вимагатиме від компаній розкривати набори даних, які використовуються для навчання, тоді як ЄС впроваджує аналогічні вимоги в Законі про ШІ.
Для компаній, які хочуть розробляти рішення зі штучного інтелекту, розуміння цієї екосистеми має вирішальне значення:
Ринок даних для навчання ШІ коштує 9,58 мільярда доларів і зростає на 27,7 відсотка щороку. Ця невидима індустрія є не лише рушієм сучасного ШІ, але й однією з найбільших етичних і правових проблем сучасності.
У наступній статті ми розглянемо, як компанії можуть конкретно увійти в цей світ, і надамо практичний посібник для початку розробки рішень зі штучного інтелекту з використанням доступних сьогодні наборів даних та інструментів.
Для тих, хто хоче дізнатися більше зараз, ми підготували детальний посібник з дорожньою картою впровадження, конкретними витратами та повним набором інструментів, який можна завантажити безкоштовно за умови підписки на розсилку newsletter.
Корисні посилання, щоб розпочати роботу негайно:
Технічні джерела:
Не чекайте на "революцію штучного інтелекту". Створіть її. Через місяць у вас може з'явитися перша робоча модель, тоді як інші ще тільки планують.