Фабіо Лоріа

За межами алгоритму: як навчають і вдосконалюють моделі штучного інтелекту

7 квітня 2025 року
Поділіться в соціальних мережах

Як навчити модель штучного інтелекту

Навчання моделей штучного інтелекту є одним з найскладніших викликів у сучасному технологічному розвитку. Набагато більше, ніж просте алгоритмічне завдання, ефективне навчання моделі вимагає методичного та міждисциплінарного підходу, який інтегрує науку про дані, знання предметної області та програмну інженерію. Як зазначає Джеймс Люк у своїй фундаментальній праці"За межами алгоритмів: впровадження штучного інтелекту для бізнесу", успіх впровадження штучного інтелекту набагато більше залежить від управління даними та системного дизайну, ніж від самих алгоритмів. Ландшафт швидко змінюється, і такі інновації, як модель DeepSeek-R1, переосмислюють вартість і доступність.

Фундамент: збір та управління даними

Якість, а не кількість

Всупереч поширеній думці, кількість даних не завжди є визначальним фактором успіху. Значно важливішими є якість та репрезентативність даних. У цьому контексті дуже важливо інтегрувати різні джерела:

  • Власні дані: етично зібрані та анонімізовані за допомогою існуючих реалізацій
  • Авторизовані дані: Отримано від надійних постачальників, які відповідають суворим стандартам якості
  • Набори даних з відкритих джерел: ретельно перевірені для забезпечення різноманітності та точності
  • Синтетичні дані: штучно створені для заповнення прогалин і вирішення проблем конфіденційності

Ця інтеграція створює комплексну навчальну базу, яка охоплює реальні сценарії, зберігаючи при цьому етичні стандарти та стандарти конфіденційності.

Проблема підготовки даних

На процес "боротьби з даними" припадає до 80 відсотків зусиль, необхідних у проектах зі штучного інтелекту. Ця фаза включає в себе:

  • Очищення даних: усунення невідповідностей, дублювання та пропусків
  • Трансформація даних: Перетворення у формати, придатні для обробки
  • Інтеграція даних: Об'єднання різних джерел, які часто використовують несумісні схеми та формати
  • Обробка відсутніх даних: стратегії, такі як статистична інтерполяція або використання проміжних даних

Як зазначила Хіларі Пакер, технічний директор American Express: "Моментом "ага!" для нас, чесно кажучи, стали дані. Ви можете зробити найкращий у світі вибір моделі... але дані - це ключ. Валідація і точність - це святий Грааль для генеративного ШІ".

Архітектура моделі: правильний вибір розміру

При виборі архітектури моделі необхідно керуватися специфікою проблеми, яку потрібно вирішити, а не особистими схильностями чи вподобаннями. Різні типи проблем вимагають різних підходів:

  • Мовні моделі на основі трансформаторів для завдань, що вимагають глибокого лінгвістичного розуміння
  • Згорткові нейронні мережі для розпізнавання зображень і шаблонів
  • Графічні нейронні мережі для аналізу складних взаємозв'язків між об'єктами
  • Навчання з підкріпленням для задач оптимізації та прийняття рішень
  • Гібридні архітектури, що поєднують кілька підходів для складних випадків використання

Архітектурна оптимізація вимагає систематичної оцінки різних конфігурацій з акцентом на збалансування продуктивності та обчислювальних вимог - аспект, який став ще більш актуальним з появою таких моделей, як DeepSeek-R1, що пропонують розширені можливості міркувань при значно менших витратах.

Прогресивні методики навчання

Модельна дистиляція

Дистиляція стала особливо потужним інструментом у сучасній екосистемі ШІ. Цей процес дозволяє створювати менші, більш специфічні моделі, які успадковують можливості міркувань більших і складніших моделей, таких як DeepSeek-R1.

Як показано у випадку з DeepSeek, компанія розробила кілька менших моделей, включаючи моделі з відкритим вихідним кодом з сімейства Llama від Meta та Qwen від Alibaba, які можна використовувати для міркувань. Ці менші моделі згодом можуть бути оптимізовані для конкретних завдань, що прискорює тенденцію до швидких і спеціалізованих моделей.

Сем Віттевін, розробник машинного навчання, зазначає: "Ми починаємо входити у світ, де люди використовують кілька моделей. Вони не просто використовують одну модель постійно". Сюди входять недорогі закриті моделі, такі як Gemini Flash і GPT-4o Mini, які "дуже добре працюють у 80 відсотках випадків використання".

Багатозадачне навчання

Замість того, щоб навчати окремі моделі суміжним навичкам, багатозадачне навчання дозволяє моделям обмінюватися знаннями між різними функціями:

  • Моделі одночасно оптимізують для декількох пов'язаних цілей
  • Базова функціональність виграє від ширшого використання для різних завдань
  • Продуктивність покращується в усіх завданнях, особливо з обмеженими даними
  • Ефективність обчислень підвищується завдяки спільному використанню компонентів

Контрольоване доопрацювання (SFT)

Для компаній, що працюють у дуже специфічних галузях, де інформація не є широко доступною в Інтернеті або в книгах, які зазвичай використовуються для навчання мовних моделей, ефективним варіантом є контрольоване точне налаштування (SFT).

DeepSeek продемонстрував, що можна досягти хороших результатів з "тисячами" наборів даних запитань і відповідей. Наприклад, інженер IBM Кріс Хей показав, як він створив невелику модель, використовуючи власні математичні набори даних, і отримав надзвичайно швидкі відповіді, які перевищили продуктивність моделі OpenAI o1 на тих же завданнях.

Навчання з підкріпленням (RL)

Компанії, які бажають навчити модель з подальшим пристосуванням до конкретних уподобань - наприклад, зробити чат-бота для підтримки клієнтів чуйним, але лаконічним, - захочуть застосувати методи навчання з підкріпленням (RL). Цей підхід особливо корисний, якщо компанія хоче, щоб її чат-бот адаптував свій тон і рекомендації на основі відгуків користувачів.

Генерація з розширеним пошуком (RAG)

Для більшості компаній найпростішим і найбезпечнішим шляхом є генерація на основі розширеного пошуку (Retrieval-Augmented Generation, RAG). Це відносно простий процес, який дозволяє організаціям прив'язувати свої моделі до власних даних, що містяться в їхніх базах даних, гарантуючи, що результати будуть точними і специфічними для конкретної галузі.

Цей підхід також допомагає протистояти деяким проблемам з галюцинаціями, пов'язаним з такими моделями, як DeepSeek, які в даний час викликають галюцинації в 14% випадків у порівнянні з 8% для моделі o3 OpenAI, згідно з дослідженням, проведеним Vectara.

Поєднання модельної дистиляції та RAG - це те, де криється магія для більшості компаній, яка стала неймовірно простою у впровадженні, навіть для тих, хто має обмежені навички в галузі науки про дані або програмування.

Оцінка та вдосконалення: за межами метрик точності

Ефективність ШІ вимірюється не лише з точки зору вихідної точності, але й вимагає комплексної системи оцінки, яка враховує всі фактори:

  • Функціональна точність: частота, з якою модель дає правильні результати
  • Надійність: Стабільність продуктивності при зміні вхідних даних та умов
  • Справедливість: Послідовна продуктивність для різних груп користувачів і сценаріїв
  • Калібрування: узгодження між довірчими оцінками та фактичною точністю
  • Ефективність: обчислювальні вимоги та вимоги до пам'яті
  • Пояснюваність: Прозорість процесів прийняття рішень - аспект, в якому дистильовані моделі DeepSeek досягають успіху, демонструючи процес міркувань.

Вплив кривої витрат

Найбільш безпосереднім наслідком виходу DeepSeek стало агресивне зниження цін. Технологічна індустрія очікувала, що витрати з часом знизяться, але мало хто очікував, як швидко це станеться. DeepSeek продемонстрував, що потужні, відкриті моделі можуть бути одночасно дешевими та ефективними, створюючи можливості для широкого експериментування та економічно ефективного впровадження.

Амр Авадалла, генеральний директор Vectara, підкреслив цей момент, зазначивши, що справжньою переломною точкою є не тільки вартість навчання, але й вартість виведення, яка для DeepSeek становить приблизно 1/30 від вартості виведення моделей OpenAI o1 або o3 у розрахунку на токен. "Маржа, яку змогли отримати OpenAI, Anthropic і Google Gemini, тепер повинна буде скоротитися щонайменше на 90 відсотків, оскільки вони не зможуть залишатися конкурентоспроможними з такими високими цінами", - сказав Авадаллах.

Мало того, ці витрати будуть продовжувати знижуватися. Генеральний директор Anthropic Даріо Амодей нещодавно заявив, що вартість розробки моделей продовжує знижуватися приблизно в чотири рази щороку. Як наслідок, ставка, яку постачальники LLM стягують за їх використання, також продовжуватиме знижуватися.

"Я цілком очікую, що вартість зведеться до нуля", - сказав Ашок Шрівастава, директор з інформаційних технологій компанії Intuit, яка активно впроваджує штучний інтелект у свої податкові та бухгалтерські програми, такі як TurboTax і Quickbooks. "...і затримки зведуться до нуля. Вони просто стануть базовими можливостями, які ми зможемо використовувати".

Висновок: Майбутнє бізнес-штучного інтелекту - відкрите, дешеве і засноване на даних

DeepSeek і Deep Research від OpenAI - це не просто нові інструменти в арсеналі штучного інтелекту, це ознаки глибоких змін, в результаті яких компанії будуть розгортати масу спеціально створених моделей, які є надзвичайно економічно ефективними, компетентними і заснованими на власних даних і підходах компанії.

Для компаній послання зрозуміле: інструменти для створення потужних галузевих додатків зі штучним інтелектом уже під рукою. Ви ризикуєте відстати, якщо не скористаєтеся цими інструментами. Але справжній успіх буде залежати від того, як ви керуєте даними, використовуєте такі методи, як RAG і дистиляція, а також впроваджуєте інновації після етапу попереднього навчання.

Як сказав Пакер з AmEx: компанії, які правильно управляють своїми даними, стануть лідерами наступної хвилі інновацій у сфері штучного інтелекту.

Фабіо Лоріа

CEO & Founder | CEO & Founder Electe

Генеральний директор Electe, я допомагаю малим та середнім підприємствам приймати рішення на основі даних. Пишу про штучний інтелект у світі бізнесу.

Найпопулярніші
Підпишіться на останні новини

Отримуйте щотижневі новини та інсайти на свою поштову скриньку
. Не пропустіть!

Дякуємо! Ваша заявка отримана!
Ой, щось пішло не так під час відправлення форми.