Бізнес

За межами алгоритму: як навчають і вдосконалюють моделі штучного інтелекту

"Дані - це ключ. Святий Грааль генеративного ШІ", - Хіларі Пакер, технічний директор American Express. На боротьбу з даними витрачається 80% зусиль у проектах зі створення ШІ. DeepSeek змінив правила: висновок коштує 1/30 порівняно з OpenAI. Даріо Амодей: витрати знижуються в 4 рази на рік. "Я очікую, що витрати впадуть до нуля" - CDO Intuit. Поєднання дистиляції + RAG - це те, в чому полягає магія для більшості компаній. Майбутнє? Маса специфічних, недорогих моделей, заснованих на даних компанії.

Підсумуйте цю статтю за допомогою ШІ

Як навчити модель штучного інтелекту

Навчання моделей штучного інтелекту є одним з найскладніших викликів у сучасному технологічному розвитку. Набагато більше, ніж просте алгоритмічне завдання, ефективне навчання моделі вимагає методичного та міждисциплінарного підходу, який об'єднує дані, науку про дані, знання предметної області та програмну інженерію. Як зазначає Джеймс Люк у своїй фундаментальній праці"За межами алгоритмів: впровадження штучного інтелекту для бізнесу", успіх впровадження штучного інтелекту набагато більше залежить від управління даними та системного дизайну, ніж від самих алгоритмів. Ландшафт швидко змінюється, і такі інновації, як модель DeepSeek-R1, переосмислюють вартість і доступність.

Фундамент: збір та управління даними

Якість, а не кількість

Всупереч поширеній думці, кількість даних не завжди є визначальним фактором успіху. Значно важливішими є якість та репрезентативність даних. У цьому контексті дуже важливо інтегрувати різні джерела:

  • Власні дані: етично зібрані та анонімізовані за допомогою існуючих реалізацій
  • Авторизовані дані: Отримано від надійних постачальників, які відповідають суворим стандартам якості
  • Набори даних з відкритих джерел: ретельно перевірені для забезпечення різноманітності та точності
  • Синтетичні дані: штучно створені для заповнення прогалин і вирішення проблем конфіденційності

Ця інтеграція створює комплексну навчальну базу, яка охоплює реальні сценарії, зберігаючи при цьому етичні стандарти та стандарти конфіденційності.

Проблема підготовки даних

На процес "боротьби з даними" припадає до 80 відсотків зусиль, необхідних у проектах зі штучного інтелекту. Ця фаза включає в себе:

  • Очищення даних: усунення невідповідностей, дублювання та пропусків
  • Трансформація даних: Перетворення у формати, придатні для обробки
  • Інтеграція даних: Об'єднання різних джерел, які часто використовують несумісні схеми та формати
  • Обробка відсутніх даних: стратегії, такі як статистична інтерполяція або використання проміжних даних

Як зазначила Хіларі Пакер, технічний директор American Express: "Моментом "ага!" для нас, чесно кажучи, стали дані. Ви можете зробити найкращий у світі вибір моделі... але дані - це ключ. Валідація і точність - це святий Грааль для генеративного ШІ".

Архітектура моделі: правильний вибір розміру

При виборі архітектури моделі необхідно керуватися специфікою проблеми, яку потрібно вирішити, а не особистими схильностями чи вподобаннями. Різні типи проблем вимагають різних підходів:

  • Мовні моделі на основі трансформаторів для завдань, що вимагають глибокого лінгвістичного розуміння
  • Згорткові нейронні мережі для розпізнавання зображень і шаблонів
  • Графічні нейронні мережі дляаналізу складних взаємозв'язків між об'єктами
  • Навчання з підкріпленням для задач оптимізації та прийняття рішень
  • Гібридні архітектури, що поєднують кілька підходів для складних випадків використання

Архітектурна оптимізація вимагає систематичної оцінки різних конфігурацій з акцентом на збалансування продуктивності та обчислювальних вимог - аспект, який став ще більш актуальним з появою таких моделей, як DeepSeek-R1, що пропонують розширені можливості міркувань при значно менших витратах.

Прогресивні методики навчання

Модельна дистиляція

Дистиляція стала особливо потужним інструментом у сучасній екосистемі ШІ. Цей процес дозволяє створювати менші, більш специфічні моделі, які успадковують можливості міркувань більших і складніших моделей, таких як DeepSeek-R1.

Як показано у випадку з DeepSeek,компанія розробила кілька менших моделей, включаючи моделі з відкритим вихідним кодом з сімейства Llama від Meta та Qwen від Alibaba, які можна використовувати для міркувань. Ці менші моделі згодом можуть бути оптимізовані для конкретних завдань, що прискорює тенденцію до швидких і спеціалізованих моделей.

Сем Віттевін, розробник машинного навчання, зазначає: "Ми починаємо входити у світ, де люди використовують кілька моделей. Вони не просто використовують одну модель постійно". Сюди входять недорогі закриті моделі, такі як Gemini Flash і GPT-4o Mini, які "дуже добре працюють у 80 відсотках випадків використання".

Багатозадачне навчання

Замість того, щоб навчати окремі моделі суміжним навичкам, багатозадачне навчання дозволяє моделям обмінюватися знаннями між різними функціями:

  • Моделі одночасно оптимізують для декількох пов'язаних цілей
  • Базова функціональність виграє від ширшого використання для різних завдань
  • Продуктивність покращується в усіх завданнях, особливо з обмеженими даними
  • Ефективність обчислень підвищується завдяки спільному використанню компонентів

Контрольоване доопрацювання (SFT)

Для компаній, що працюють у дуже специфічних галузях, де інформація не є широко доступною в Інтернеті або в книгах, які зазвичай використовуються для навчання мовних моделей, ефективним варіантом є контрольоване точне налаштування (SFT).

DeepSeek продемонстрував, що можна досягти хороших результатів з "тисячами" наборів даних запитань і відповідей. Наприклад, інженер IBM Кріс Хей показав, як він створив невелику модель, використовуючи власні математичні набори даних, і отримав надзвичайно швидкі відповіді, які перевищили продуктивність моделі OpenAI o1 на тих же завданнях.

Навчання з підкріпленням (RL)

Компанії, які бажають навчити модель з подальшим пристосуванням до конкретних уподобань - наприклад, зробити чат-бота для підтримки клієнтів чуйним, але лаконічним, - захочуть застосувати методи навчання з підкріпленням (RL). Цей підхід особливо корисний, якщо компанія хоче, щоб її чат-бот адаптував свій тон і рекомендації на основі відгуків користувачів.

Генерація з розширеним пошуком (RAG)

Для більшості компаній найпростішим і найбезпечнішим шляхом є генерація на основі розширеного пошуку (Retrieval-Augmented Generation, RAG). Це відносно простий процес, який дозволяє організаціям прив'язувати свої моделі до власних даних, що містяться в їхніх базах даних, гарантуючи, що результати будуть точними і специфічними для конкретної галузі.

Цей підхід також допомагає протистояти деяким проблемам з галюцинаціями, пов'язаним з такими моделями, як DeepSeek, які в даний час викликають галюцинації в 14% випадків у порівнянні з 8% для моделі o3 OpenAI, згідно з дослідженням, проведеним Vectara.

Поєднання модельної дистиляції та RAG - це те, де криється магія для більшості компаній, яка стала неймовірно простою у впровадженні, навіть для тих, хто має обмежені навички в галузі науки про дані або програмування.

Оцінка та вдосконалення: за межами метрик точності

Ефективність ШІ вимірюється не лише з точки зору вихідної точності, але й вимагає комплексної системи оцінки, яка враховує всі фактори:

  • Функціональна точність: частота, з якою модель дає правильні результати
  • Надійність: Стабільність продуктивності при зміні вхідних даних та умов
  • Справедливість: Послідовна продуктивність для різних груп користувачів і сценаріїв
  • Калібрування: узгодження між довірчими оцінками та фактичною точністю
  • Ефективність: обчислювальні вимоги та вимоги до пам'яті
  • Пояснюваність: Прозорість процесів прийняття рішень - аспект, в якому дистильовані моделі DeepSeek досягають успіху, демонструючи процес міркувань.

Вплив кривої витрат

Найбільш безпосереднім наслідком виходу DeepSeek стало агресивне зниження цін. Технологічна індустрія очікувала, що витрати з часом знизяться, але мало хто очікував, як швидко це станеться. DeepSeek продемонстрував, що потужні, відкриті моделі можуть бути одночасно дешевими та ефективними, створюючи можливості для широкого експериментування та економічно ефективного впровадження.

Амр Авадалла, генеральний директор Vectara, підкреслив цей момент, зазначивши, що справжньою переломною точкою є не тільки вартість навчання, але й вартість виведення, яка для DeepSeek становить приблизно 1/30 від вартості виведення моделей OpenAI o1 або o3 у розрахунку на токен. "Маржа, яку змогли отримати OpenAI, Anthropic і Google Gemini, тепер повинна буде скоротитися щонайменше на 90 відсотків, оскільки вони не зможуть залишатися конкурентоспроможними з такими високими цінами", - сказав Авадаллах.

Мало того, ці витрати будуть продовжувати знижуватися. Генеральний директор Anthropic Даріо Амодей нещодавно заявив, що вартість розробки моделей продовжує знижуватися приблизно в чотири рази щороку. Як наслідок, ставка, яку постачальники LLM стягують за їх використання, також продовжуватиме знижуватися.

"Я цілком очікую, що вартість зведеться до нуля", - сказав Ашок Шрівастава, директор з інформаційних технологій компанії Intuit, яка активно впроваджує штучний інтелект у свої податкові та бухгалтерські програми, такі як TurboTax і Quickbooks. "...і затримки зведуться до нуля. Вони просто стануть базовими можливостями, які ми зможемо використовувати".

Висновок: Майбутнє корпоративного ШІ - відкрите, дешеве і засноване на даних

DeepSeek і Deep Research від OpenAI - це не просто нові інструменти в арсеналі штучного інтелекту, це ознаки глибоких змін, в результаті яких компанії будуть розгортати масу спеціально створених моделей, які є надзвичайно економічно ефективними, компетентними і заснованими на власних даних і підходах компанії.

Для компаній послання зрозуміле: інструменти для створення потужних галузевих додатків зі штучним інтелектом вже під рукою. Ви ризикуєте відстати, якщо не скористаєтеся цими інструментами. Але справжній успіх буде залежати від того, як ви керуєте даними, використовуєте такі методи, як RAG і дистиляція, а також впроваджуєте інновації після етапу попереднього навчання.

Як сказав Пакер з AmEx: компанії, які правильно управляють своїми даними, стануть лідерами наступної хвилі інновацій у сфері штучного інтелекту.

Ресурси для розвитку бізнесу

9 листопада 2025 року

Повний посібник з програмного забезпечення для бізнес-аналітики для МСП

60% італійських МСП визнають, що мають критичні прогалини в підготовці даних, 29% навіть не мають спеціальної цифри - в той час як італійський ринок бізнес-аналітики зросте з $36,79 млрд до $69,45 млрд до 2034 року (CAGR 8,56%). Проблема не в технології, а в підході: малі та середні підприємства тонуть у даних, розкиданих між таблицями CRM, ERP, Excel, не перетворюючи їх на рішення. Це стосується як тих, хто починає з нуля, так і тих, хто хоче оптимізувати. Критерії вибору, які мають значення: зручність використання без місяців навчання, масштабованість, яка зростає разом з вами, інтеграція з існуючими системами, повна сукупна вартість володіння (впровадження + навчання + обслуговування) порівняно з вартістю самої лише ліцензії. 4-крокова дорожня карта - вимірювані SMART-цілі (зменшити відтік на 15% за 6 місяців), чисте мапування джерел даних (сміття на вході = сміття на виході), навчання команди культурі даних, пілотний проект з безперервним циклом зворотного зв'язку. ШІ змінює все: від описової BI (що сталося) до доповненої аналітики, яка виявляє приховані закономірності, предиктивної, яка оцінює майбутній попит, прескриптивної, яка пропонує конкретні дії. Electe демократизує цю силу для МСП.
9 листопада 2025 року

Система охолодження Google DeepMind AI: як штучний інтелект революціонізує енергоефективність центрів обробки даних

Google DeepMind досягає -40% енергії на охолодження центру обробки даних (але лише -4% загального споживання, оскільки охолодження становить 10% від загального) - точність 99,6% з похибкою 0,4% на PUE 1.1 завдяки 5-рівневому глибокому навчанню, 50 вузлам, 19 вхідним змінним на 184 435 навчальних вибірках (дані за 2 роки). Підтверджено на 3 об'єктах: Сінгапур (перше розгортання у 2016 році), Емшавен, Рада Блаффс (інвестиції у розмірі $5 млрд). PUE флоту Google 1,09 проти середнього по галузі 1,56-1,58. Модель Predictive Control прогнозує температуру/тиск на наступну годину, одночасно керуючи ІТ-навантаженням, погодою, станом обладнання. Гарантована безпека: дворівнева верифікація, оператори завжди можуть відключити ШІ. Критичні обмеження: нульова незалежна перевірка з боку аудиторських фірм/національних лабораторій, для кожного дата-центру потрібна індивідуальна модель (8 років не комерціалізована). Впровадження займає 6-18 місяців і потребує мультидисциплінарної команди (наука про дані, ОВіК, управління об'єктами). Застосовується не лише в дата-центрах: промислові підприємства, лікарні, торгові центри, корпоративні офіси. 2024-2025: Перехід Google на пряме рідинне охолодження для TPU v5p, що вказує на практичні межі оптимізації ШІ.
9 листопада 2025 року

Чому математика - це складно (навіть якщо ви штучний інтелект)

Мовні моделі не вміють множити і запам'ятовувати результати так, як ми запам'ятовуємо число пі, але це не робить їх математиками. Проблема структурна: вони навчаються за статистичною схожістю, а не за алгоритмічним розумінням. Навіть нові "моделі мислення", такі як o1, не справляються з тривіальними завданнями: вони правильно рахують "r" у слові "полуниця" після декількох секунд обробки, але не можуть написати абзац, де друга буква кожного речення складає слово. Преміум-версія за 200 доларів на місяць витрачає чотири хвилини на те, що дитина робить миттєво. DeepSeek і Mistral у 2025 році все ще неправильно рахують літери. Яке рішення з'являється? Гібридний підхід - найрозумніші моделі з'ясували, коли потрібно викликати справжній калькулятор, а не намагатися обчислити самостійно. Зміна парадигми: ШІ не повинен знати, як робити все, а лише організувати правильні інструменти. Останній парадокс: GPT-4 може блискуче пояснити вам теорію меж, але неправильно виконує множення, які кишеньковий калькулятор завжди виконує правильно. Для навчання математики вони чудові - пояснюють з безмежним терпінням, адаптують приклади, розбивають складні міркування. Для точних розрахунків? Точно на калькулятор, а не на штучний інтелект.