Бізнес

За межами алгоритму: як навчають і вдосконалюють моделі штучного інтелекту

"Дані - це ключ. Святий Грааль генеративного ШІ", - Хіларі Пакер, технічний директор American Express. На боротьбу з даними витрачається 80% зусиль у проектах зі створення ШІ. DeepSeek змінив правила: висновок коштує 1/30 порівняно з OpenAI. Даріо Амодей: витрати знижуються в 4 рази на рік. "Я очікую, що витрати впадуть до нуля" - CDO Intuit. Поєднання дистиляції + RAG - це те, в чому полягає магія для більшості компаній. Майбутнє? Маса специфічних, недорогих моделей, заснованих на даних компанії.

Підсумуйте цю статтю за допомогою ШІ

Як навчити модель штучного інтелекту

Навчання моделей штучного інтелекту є одним з найскладніших викликів у сучасному технологічному розвитку. Набагато більше, ніж просте алгоритмічне завдання, ефективне навчання моделі вимагає методичного та міждисциплінарного підходу, який об'єднує дані, науку про дані, знання предметної області та програмну інженерію. Як зазначає Джеймс Люк у своїй фундаментальній праці"За межами алгоритмів: впровадження штучного інтелекту для бізнесу", успіх впровадження штучного інтелекту набагато більше залежить від управління даними та системного дизайну, ніж від самих алгоритмів. Ландшафт швидко змінюється, і такі інновації, як модель DeepSeek-R1, переосмислюють вартість і доступність.

Фундамент: збір та управління даними

Якість, а не кількість

Всупереч поширеній думці, кількість даних не завжди є визначальним фактором успіху. Значно важливішими є якість та репрезентативність даних. У цьому контексті дуже важливо інтегрувати різні джерела:

  • Власні дані: етично зібрані та анонімізовані за допомогою існуючих реалізацій
  • Авторизовані дані: Отримано від надійних постачальників, які відповідають суворим стандартам якості
  • Набори даних з відкритих джерел: ретельно перевірені для забезпечення різноманітності та точності
  • Синтетичні дані: штучно створені для заповнення прогалин і вирішення проблем конфіденційності

Ця інтеграція створює комплексну навчальну базу, яка охоплює реальні сценарії, зберігаючи при цьому етичні стандарти та стандарти конфіденційності.

Проблема підготовки даних

На процес "боротьби з даними" припадає до 80 відсотків зусиль, необхідних у проектах зі штучного інтелекту. Ця фаза включає в себе:

  • Очищення даних: усунення невідповідностей, дублювання та пропусків
  • Трансформація даних: Перетворення у формати, придатні для обробки
  • Інтеграція даних: Об'єднання різних джерел, які часто використовують несумісні схеми та формати
  • Обробка відсутніх даних: стратегії, такі як статистична інтерполяція або використання проміжних даних

Як зазначила Хіларі Пакер, технічний директор American Express: "Моментом "ага!" для нас, чесно кажучи, стали дані. Ви можете зробити найкращий у світі вибір моделі... але дані - це ключ. Валідація і точність - це святий Грааль для генеративного ШІ".

Архітектура моделі: правильний вибір розміру

При виборі архітектури моделі необхідно керуватися специфікою проблеми, яку потрібно вирішити, а не особистими схильностями чи вподобаннями. Різні типи проблем вимагають різних підходів:

  • Мовні моделі на основі трансформаторів для завдань, що вимагають глибокого лінгвістичного розуміння
  • Згорткові нейронні мережі для розпізнавання зображень і шаблонів
  • Графічні нейронні мережі дляаналізу складних взаємозв'язків між об'єктами
  • Навчання з підкріпленням для задач оптимізації та прийняття рішень
  • Гібридні архітектури, що поєднують кілька підходів для складних випадків використання

Архітектурна оптимізація вимагає систематичної оцінки різних конфігурацій з акцентом на збалансування продуктивності та обчислювальних вимог - аспект, який став ще більш актуальним з появою таких моделей, як DeepSeek-R1, що пропонують розширені можливості міркувань при значно менших витратах.

Прогресивні методики навчання

Модельна дистиляція

Дистиляція стала особливо потужним інструментом у сучасній екосистемі ШІ. Цей процес дозволяє створювати менші, більш специфічні моделі, які успадковують можливості міркувань більших і складніших моделей, таких як DeepSeek-R1.

Як показано у випадку з DeepSeek,компанія розробила кілька менших моделей, включаючи моделі з відкритим вихідним кодом з сімейства Llama від Meta та Qwen від Alibaba, які можна використовувати для міркувань. Ці менші моделі згодом можуть бути оптимізовані для конкретних завдань, що прискорює тенденцію до швидких і спеціалізованих моделей.

Сем Віттевін, розробник машинного навчання, зазначає: "Ми починаємо входити у світ, де люди використовують кілька моделей. Вони не просто використовують одну модель постійно". Сюди входять недорогі закриті моделі, такі як Gemini Flash і GPT-4o Mini, які "дуже добре працюють у 80 відсотках випадків використання".

Багатозадачне навчання

Замість того, щоб навчати окремі моделі суміжним навичкам, багатозадачне навчання дозволяє моделям обмінюватися знаннями між різними функціями:

  • Моделі одночасно оптимізують для декількох пов'язаних цілей
  • Базова функціональність виграє від ширшого використання для різних завдань
  • Продуктивність покращується в усіх завданнях, особливо з обмеженими даними
  • Ефективність обчислень підвищується завдяки спільному використанню компонентів

Контрольоване доопрацювання (SFT)

Для компаній, що працюють у дуже специфічних галузях, де інформація не є широко доступною в Інтернеті або в книгах, які зазвичай використовуються для навчання мовних моделей, ефективним варіантом є контрольоване точне налаштування (SFT).

DeepSeek продемонстрував, що можна досягти хороших результатів з "тисячами" наборів даних запитань і відповідей. Наприклад, інженер IBM Кріс Хей показав, як він створив невелику модель, використовуючи власні математичні набори даних, і отримав надзвичайно швидкі відповіді, які перевищили продуктивність моделі OpenAI o1 на тих же завданнях.

Навчання з підкріпленням (RL)

Компанії, які бажають навчити модель з подальшим пристосуванням до конкретних уподобань - наприклад, зробити чат-бота для підтримки клієнтів чуйним, але лаконічним, - захочуть застосувати методи навчання з підкріпленням (RL). Цей підхід особливо корисний, якщо компанія хоче, щоб її чат-бот адаптував свій тон і рекомендації на основі відгуків користувачів.

Генерація з розширеним пошуком (RAG)

Для більшості компаній найпростішим і найбезпечнішим шляхом є генерація на основі розширеного пошуку (Retrieval-Augmented Generation, RAG). Це відносно простий процес, який дозволяє організаціям прив'язувати свої моделі до власних даних, що містяться в їхніх базах даних, гарантуючи, що результати будуть точними і специфічними для конкретної галузі.

Цей підхід також допомагає протистояти деяким проблемам з галюцинаціями, пов'язаним з такими моделями, як DeepSeek, які в даний час викликають галюцинації в 14% випадків у порівнянні з 8% для моделі o3 OpenAI, згідно з дослідженням, проведеним Vectara.

Поєднання модельної дистиляції та RAG - це те, де криється магія для більшості компаній, яка стала неймовірно простою у впровадженні, навіть для тих, хто має обмежені навички в галузі науки про дані або програмування.

Оцінка та вдосконалення: за межами метрик точності

Ефективність ШІ вимірюється не лише з точки зору вихідної точності, але й вимагає комплексної системи оцінки, яка враховує всі фактори:

  • Функціональна точність: частота, з якою модель дає правильні результати
  • Надійність: Стабільність продуктивності при зміні вхідних даних та умов
  • Справедливість: Послідовна продуктивність для різних груп користувачів і сценаріїв
  • Калібрування: узгодження між довірчими оцінками та фактичною точністю
  • Ефективність: обчислювальні вимоги та вимоги до пам'яті
  • Пояснюваність: Прозорість процесів прийняття рішень - аспект, в якому дистильовані моделі DeepSeek досягають успіху, демонструючи процес міркувань.

Вплив кривої витрат

Найбільш безпосереднім наслідком виходу DeepSeek стало агресивне зниження цін. Технологічна індустрія очікувала, що витрати з часом знизяться, але мало хто очікував, як швидко це станеться. DeepSeek продемонстрував, що потужні, відкриті моделі можуть бути одночасно дешевими та ефективними, створюючи можливості для широкого експериментування та економічно ефективного впровадження.

Амр Авадалла, генеральний директор Vectara, підкреслив цей момент, зазначивши, що справжньою переломною точкою є не тільки вартість навчання, але й вартість виведення, яка для DeepSeek становить приблизно 1/30 від вартості виведення моделей OpenAI o1 або o3 у розрахунку на токен. "Маржа, яку змогли отримати OpenAI, Anthropic і Google Gemini, тепер повинна буде скоротитися щонайменше на 90 відсотків, оскільки вони не зможуть залишатися конкурентоспроможними з такими високими цінами", - сказав Авадаллах.

Мало того, ці витрати будуть продовжувати знижуватися. Генеральний директор Anthropic Даріо Амодей нещодавно заявив, що вартість розробки моделей продовжує знижуватися приблизно в чотири рази щороку. Як наслідок, ставка, яку постачальники LLM стягують за їх використання, також продовжуватиме знижуватися.

"Я цілком очікую, що вартість зведеться до нуля", - сказав Ашок Шрівастава, директор з інформаційних технологій компанії Intuit, яка активно впроваджує штучний інтелект у свої податкові та бухгалтерські програми, такі як TurboTax і Quickbooks. "...і затримки зведуться до нуля. Вони просто стануть базовими можливостями, які ми зможемо використовувати".

Висновок: Майбутнє корпоративного ШІ - відкрите, дешеве і засноване на даних

DeepSeek і Deep Research від OpenAI - це не просто нові інструменти в арсеналі штучного інтелекту, це ознаки глибоких змін, в результаті яких компанії будуть розгортати масу спеціально створених моделей, які є надзвичайно економічно ефективними, компетентними і заснованими на власних даних і підходах компанії.

Для компаній послання зрозуміле: інструменти для створення потужних галузевих додатків зі штучним інтелектом вже під рукою. Ви ризикуєте відстати, якщо не скористаєтеся цими інструментами. Але справжній успіх буде залежати від того, як ви керуєте даними, використовуєте такі методи, як RAG і дистиляція, а також впроваджуєте інновації після етапу попереднього навчання.

Як сказав Пакер з AmEx: компанії, які правильно управляють своїми даними, стануть лідерами наступної хвилі інновацій у сфері штучного інтелекту.

Ресурси для розвитку бізнесу

9 листопада 2025 року

Регулювання штучного інтелекту для споживчих додатків: як підготуватися до нових правил 2025 року

2025 рік знаменує собою кінець ери "Дикого Заходу" для ШІ: Закон ЄС про ШІ набув чинності в серпні 2024 року, зобов'язання щодо ШІ-грамотності - з 2 лютого 2025 року, управління та GPAI - з 2 серпня. Каліфорнійські першопрохідці з SB 243 (народився після самогубства Сьюелла Сетцера, 14-річного підлітка, який розвинув емоційні стосунки з чат-ботом) накладають заборону на системи нав'язливої винагороди, виявлення суїцидальних думок, нагадування кожні 3 години "Я не людина", незалежний громадський аудит, штрафи в розмірі $1 000 за порушення. SB 420 вимагає проведення оцінки впливу "автоматизованих рішень з високим рівнем ризику" з правом на оскарження з боку людини. Реальне правозастосування: Noom назвав 2022 рік для ботів, які видавали себе за тренерів-людей, виплативши 56 мільйонів доларів. Національна тенденція: Алабама, Гаваї, Іллінойс, Мен, Массачусетс класифікують неповідомлення чат-ботів зі штучним інтелектом як порушення UDAP. Трирівневий підхід до критично важливих систем (охорона здоров'я/транспорт/енергетика): сертифікація перед розгортанням, прозоре розкриття інформації для споживачів, реєстрація загального призначення + тестування безпеки. Регуляторна клаптикова ковдра без федеральних преференцій: компанії з різних штатів повинні орієнтуватися у змінних вимогах. ЄС з серпня 2026 року: інформувати користувачів про взаємодію зі штучним інтелектом, якщо вона не очевидна, вміст, створений штучним інтелектом, має бути позначений як машинозчитуваний.
9 листопада 2025 року

Регулювання того, що не створюється: чи ризикує Європа залишитися технологічно неактуальною?

Європа залучає лише десяту частину світових інвестицій у штучний інтелект, але претендує на те, щоб диктувати глобальні правила. Це "Брюссельський ефект" - встановлення правил у планетарному масштабі за допомогою ринкової влади без стимулювання інновацій. Закон про штучний інтелект набуває чинності за поетапним графіком до 2027 року, але транснаціональні технологічні компанії реагують на це креативними стратегіями ухилення: посилаючись на комерційну таємницю, щоб уникнути розкриття даних про навчання, створюючи технічно сумісні, але незрозумілі резюме, використовуючи самооцінку, щоб знизити клас систем з "високого ризику" до "мінімального ризику", шукаючи країни-члени з менш суворим контролем. Парадокс екстериторіального авторського права: ЄС вимагає від OpenAI дотримуватися європейських законів навіть для навчання за межами Європи - принцип, який ніколи раніше не зустрічався в міжнародному праві. Виникає "подвійна модель": обмежені європейські версії проти просунутих глобальних версій тих самих продуктів ШІ. Реальний ризик: Європа стає "цифровою фортецею", ізольованою від глобальних інновацій, а європейські громадяни отримують доступ до гірших технологій. Суд ЄС у справі про кредитний скоринг вже відхилив захист "комерційної таємниці", але інтерпретаційна невизначеність залишається величезною - що саме означає "достатньо детальне резюме"? Ніхто не знає. Останнє питання без відповіді: чи створює ЄС етичний третій шлях між американським капіталізмом і китайським державним контролем, чи просто експортує бюрократію в сферу, де вона не конкурує? Наразі: світовий лідер у регулюванні ШІ, маргінал у його розвитку. Величезна програма.
9 листопада 2025 року

Винятки: де наука про дані зустрічається з історіями успіху

Наука про дані перевернула парадигму з ніг на голову: викиди більше не є "помилками, які потрібно усунути", а цінною інформацією, яку потрібно зрозуміти. Один викид може повністю спотворити модель лінійної регресії - змінити нахил з 2 до 10, але його усунення може означати втрату найважливішого сигналу в наборі даних. Машинне навчання представляє складні інструменти: Isolation Forest ізолює викиди шляхом побудови випадкових дерев рішень, Local Outlier Factor аналізує локальну щільність, Autoencoders реконструює нормальні дані і повідомляє про те, що вони не можуть відтворити. Існують глобальні викиди (температура -10°C в тропіках), контекстуальні викиди (витрати 1000 євро в бідному районі), колективні викиди (синхронізовані сплески трафіку в мережі, що вказують на атаку). Паралельно з Гладуеллом: "правило 10 000 годин" оскаржується - Пол Маккартні сказав: "Багато гуртів провели 10 000 годин у Гамбурзі без успіху, теорія не є безпомилковою". Азійський математичний успіх є не генетичним, а культурним: китайська система числення більш інтуїтивна, вирощування рису потребує постійного вдосконалення на відміну від територіальної експансії західного сільського господарства. Реальні застосування: британські банки відшкодовують 18% потенційних збитків завдяки виявленню аномалій у реальному часі, виробництво виявляє мікроскопічні дефекти, які не помічає людина, охорона здоров'я перевіряє дані клінічних випробувань з чутливістю виявлення аномалій понад 85%. Останній урок: оскільки наука про дані переходить від усунення відхилень до їх розуміння, ми повинні розглядати нестандартні кар'єри не як аномалії, які потрібно виправляти, а як цінні траєкторії, які потрібно вивчати.