Newsletter

Еволюція магістерських програм: короткий огляд ринку

Менше 2 відсоткових пунктів розділяють провідних LLM за основними показниками - технологічна війна закінчилася внічию. Справжня битва 2025 року розгорнеться за екосистеми, дистрибуцію та вартість: DeepSeek довів, що може конкурувати з $5,6 млн проти $78-191 млн у GPT-4. ChatGPT домінує над брендом (76% поінформованості), незважаючи на те, що Клод виграв 65% технічних бенчмарків. Для компаній виграшна стратегія полягає не у виборі "найкращої моделі", а в організації взаємодоповнюючих моделей для різних сценаріїв використання.

Підсумуйте цю статтю за допомогою ШІ

Війна мовних моделей 2025: від технічного паритету до битви екосистем

Розвиток великих мовних моделей у 2025 році досягнув критичного переломного моменту: конкуренція більше не базується на фундаментальних можливостях моделей, які зараз практично рівноцінні в основних тестах, а на екосистемі, інтеграції та стратегії розгортання. Хоча Claude Sonnet 4.5 від Anthropic зберігає невелику технічну перевагу в окремих тестах, справжня битва перемістилася на іншу територію.

Технічний розіграш: коли цифри зрівнюються

Бенчмарк MMLU (Massive Multitask Language Understanding)

  • Клод Сонет 4.5: 88.7%.
  • GPT-4o: 88,0%.
  • Спалах Gemini 2.0: 86,9%.
  • DeepSeek-V3: 87.1%.

Відмінності незначні - лідерів розділяють менш ніж 2 відсоткові пункти. Згідно зі звітом AI Index Report 2025 Стенфордського університету, "конвергенція основних можливостей мовних моделей є однією з найбільш значущих тенденцій 2024-2025 років, що має глибокі наслідки для конкурентних стратегій AI-компаній".

Навички міркування (діамантовий рівень GPQA)

  • Клод Сонет 4: 65.0%.
  • GPT-4o: 53,6%.
  • Gemini 2.0 Pro: 59,1%.

Claude зберігає значну перевагу в складних логічних задачах, але GPT-4o перевершує за швидкістю відгуку (середня затримка 1,2 с проти 2,1 с у Claude), а Gemini - у власній мультимодальній обробці.

Революція DeepSeek: Китайська зміна правил гри

У січні 2025 року на ринку з'явився проривний продукт DeepSeek-V3, який продемонстрував, як можна розробляти конкурентоспроможні моделі за $5,6 млн проти $78-191 млн за GPT-4/Gemini Ultra. Марк Андрессен назвав це "одним з найдивовижніших проривів - і, оскільки це відкритий код, глибоким подарунком світові".

Технічні характеристики DeepSeek-V3:

  • 671 мільярд загальних параметрів (37 мільярдів активних через Mixture-of-Experts)
  • Вартість навчання: $5.576M
  • Продуктивність: перевершує GPT-4o в деяких математичних тестах
  • Архітектура: Багатоголова латентна увага (MLA) + DeepSeekMoE

Вплив: акції Nvidia впали на 17% за одну сесію після оголошення, а ринок переоцінив бар'єри для входу на ринок розробки моделей.

Суспільне сприйняття проти технічної реальності

ChatGPT зберігає беззаперечне лідерство: дослідження Pew Research Center (лютий 2025 року) показало, що 76% американців асоціюють "розмовний ШІ" виключно з ChatGPT, тоді як лише 12% знають Claude і 8% активно користуються Gemini.

Парадокс: Claude Sonnet 4 перевершує GPT-4o у 65% технічних тестів, але має лише 8% частки споживчого ринку проти 71% ChatGPT (дані Similarweb, березень 2025 року).

Google реагує масовою інтеграцією: Gemini 2.0 у Пошуку, Gmail, Документах, екосистемі Drive-стратегії, а не як окремий продукт. 2,1 мільярда користувачів Google Workspace - це миттєва дистрибуція без залучення клієнтів.

Використання комп'ютерів та агенти: Наступний рубіж

Claude Computer Use (бета-версія жовтень 2024, випуск 1 квартал 2025)

  • Можливості: пряме керування мишею/клавіатурою, навігація в браузері, взаємодія з додатками
  • Впровадження: 12% корпоративних клієнтів Використання комп'ютерів на виробництві
  • Обмеження: все ще 14% відмов на складних багатокрокових завданнях

GPT-4o з баченням та діями

  • Інтеграція з Zapier: 6000+ керованих додатків
  • Користувацькі GPT: 3 мільйони опубліковано, 800 тисяч активно використовуються
  • Розподіл доходу на кожного творця GPT: $10 млн розподілено у 4 кварталі 2024 року

Глибокі дослідження Близнюків (січень 2025)

  • Автономне багатоджерельне дослідження з бенчмаркінгом
  • Створює повні звіти з окремих підказок
  • Середній час: 8-12 хвилин на звіт на 5000+ слів

Gartner прогнозує, що до кінця 2025 року 33% працівників сфери знань використовуватимуть автономні агенти ШІ, тоді як сьогодні їх буде лише 5%.

Філософські розбіжності щодо безпеки

OpenAI: підхід "Безпека через обмеження

  • Відмовляє 8,7% оперативних споживачів (внутрішні дані витоку OpenAI)
  • Сувора контентна політика спричиняє відтік 23% розробників до альтернатив
  • Система державної готовності з постійним перерозподілом обов'язків

Антропний: "Конституційний ШІ

  • Модель навчена чітко визначеним етичним принципам
  • Вибіркова відмова: 3,1% підказок (більш поблажливий OpenAI)
  • Прозоре прийняття рішень: пояснити, чому відмовляє у задоволенні запитів

Google: "Максимум безпеки, мінімум суперечок".

  • Жорсткіші ринкові фільтри: 11,2% запитів заблоковано
  • Близнюки Збій у зображенні лютого 2024 року (перекосировка зсуву) вимагає особливої обережності
  • Зосередженість на підприємстві знижує толерантність до ризику

Meta Llama 3.1: нуль вбудованих фільтрів, відповідальність на реалізаторі - протилежна філософія.

Вертикальна спеціалізація: справжній диференціатор

Охорона здоров'я:

  • Med-PaLM 2 (Google): 85,4% на MedQA (проти 77% найкращих лікарів-людей)
  • Claude в Epic Systems: прийнятий 305 лікарнями США для підтримки прийняття клінічних рішень

Легально:

  • Harvey AI (GPT-4 на замовлення): 102 топ-100 юридичних фірм, $100 млн ARR
  • Співрадник (Thomson Reuters + Claude): 98% точності юридичних досліджень

Фінанси:

  • Bloomberg GPT: навчання на власних фінансових токенах 363B
  • Goldman Sachs Marcus AI (база GPT-4): схвалює кредити на 40% швидше

Вертикалізація генерує в 3,5 рази більшу готовність платити порівняно з типовими моделями (опитування McKinsey, 500 корпоративних покупців).

Лама 3.1: Стратегія Meta з відкритим вихідним кодом

Параметри 405B, конкурентні можливості з GPT-4o у багатьох тестах, повністю відкриті ваги. Мета-стратегія: комерціалізувати рівень інфраструктури, щоб конкурувати на рівні продукту (окуляри Ray-Ban Meta, штучний інтелект WhatsApp).

Усиновлення лами 3.1:

  • 350K+ завантажень у перший місяць
  • 50+ стартапів будують вертикалі АІ на Llama
  • Вартість самокерованого хостингу: $12 тис. на місяць проти $50 тис. + вартість закритих моделей API для еквівалентного використання

Контрінтуїтивно: Meta втрачає мільярди доларів на Reality Labs, але масово інвестує у відкритий ШІ, щоб захистити основний рекламний бізнес.

Контекстні вікна: перегони за мільйони токенів

  • Claude Sonnet 4.5: 200K токенів
  • Gemini 2.0 Pro: 2M токен (найдовший з комерційно доступних)
  • GPT-4 Turbo: 128K токенів

Контекст Gemini 2M дозволяє аналізувати цілі кодові бази, 10+ годин відео, тисячі сторінок документації - кейси використання, що трансформують підприємства. За даними Google Cloud, 43% корпоративних POC використовують контекст понад 500 тис. токенів.

Адаптивність та кастомізація

Claude Projects & Styles:

  • Користувацькі постійні інструкції для перехресних розмов
  • Пресети стилів: формальний, стислий, пояснювальний
  • Завантаження баз знань (до 5 ГБ документів)

Магазин GPT та власні GPT:

  • Опубліковано 3M GPT, щомісячне активне використання 800K
  • Найкращий творець заробляє $63 тис. на місяць (розподіл доходу)
  • 71% підприємств використовують ≥1 кастомний GPT всередині

Розширення Близнюків:

  • Нативна інтеграція Gmail, Календаря, Диска, Карт
  • Контекст робочого простору: читає електронну пошту + календар для проактивних пропозицій
  • 1.2B виконаних дій у робочому просторі Q4 2024

Ключ: "єдиний запит" на "постійний помічник з пам'яттю та контекстом між сеансами".

Розвиток у 1 кварталі 2025 року та майбутні траєкторії

Тенденція 1: Домінування змішаних експертівУсімоделі 2025 року найвищого рівня використовують МН (активують параметри підмножини для кожного запиту):

  • Зменшення витрат на висновок на 40-60%.
  • Краща затримка зі збереженням якості
  • DeepSeek, GPT-4, Gemini Ultra - всі на базі МО

Тенденція 2: Мультимодальність від початку мультимодальнаGemini2.0 від початку мультимодальна (не окремі склеєні модулі):

  • Одночасне розуміння тексту+зображення+аудіо+відео
  • Крос-модальне міркування: "порівняй фотографію архітектурного стилю будівлі з текстовим описом історичного періоду".

Тенденція 3: Обчислення тестового часу (моделі міркувань)OpenAI o1, DeepSeek-R1: використовують більше часу для складних міркувань:

  • o1: 30-60 секунд на складну математичну задачу проти 2 секунд GPT-4o
  • Точність AIME 2024: 83,3% проти 13,4% GPT-4o
  • Явний компроміс між затримкою та точністю

Тенденція 4: Агентні робочі процесиМодельконтекстного протоколу (MCP) Anthropic, листопад 2024 року:

  • Відкритий стандарт для взаємодії агентів ШІ з інструментами/базами даних
  • 50+ партнерів з усиновлення за перші 3 місяці
  • Дозволяє агентам створювати постійну пам'ять перехресних взаємодій

Витрати та цінові війни

API Ціноутворення на 1M токенів (вхідні дані):

  • GPT-4o: $2.50
  • Клод Сонет 4: $3.00
  • Gemini 2.0 Flash: $0.075 (у 33 рази дешевше)
  • DeepSeek-V3: $0.27 (відкритий вихідний код, витрати на хостинг)

Приклад з Gemini Flash: узагальнення ШІ для стартапу знижує витрати на 94% порівняно з переходом з GPT-4o - така ж якість, порівнянна затримка

Комерціалізація прискорюється: витрати на висновок -70% у порівнянні з 2023-2024 роками (дані Epoch AI).

Стратегічні наслідки для компаній

Система прийняття рішень: яку модель обрати?

Сценарій 1: Критично важливий для безпеки підприємства→Клод Сонет 4

  • Охорона здоров'я, юриспруденція, фінанси, де помилки коштують мільйони
  • Конституційний ШІ знижує ризики відповідальності
  • Преміальна ціна виправдана зниженням ризиків

Сценарій 2: Великі обсяги, чутливі до витрат →Gemini Flash або DeepSeek

  • Чат-боти для обслуговування клієнтів, модерація контенту, класифікація
  • Продуктивність "досить добре", гучність 10x-100x
  • Основний диференціатор вартості

Сценарій 3: Блокування екосистеми →Gemini для Google Workspace, GPT для Microsoft

  • Вже інвестували в екосистему
  • Вбудована інтеграція > чудова маржинальна продуктивність
  • Витрати на навчання працівників на існуючій платформі

Сценарій 4: Налаштування/Керування→відкрито Llama 3.1 або DeepSeek

  • Конкретні вимоги щодо відповідності (резидентність даних, аудит)
  • Важкі тонкі налаштування на власних даних
  • Економний самостійний хостинг за обсягом

Висновок: Від війни технологій до війни платформ

У 2025 році конкурс на отримання ступеня магістра права вже не "яка модель міркує найкраще", а "яка екосистема створює найбільшу цінність". OpenAI домінує над споживчим брендом, Google використовує дистрибуцію з мільярдами користувачів, Anthropic перемагає у боротьбі за безпеку підприємств, Meta перетворює інфраструктуру на товар.

Прогноз на 2026-2027 роки:

  • Подальша конвергенція продуктивності ядра (~90% MMLU у всіх топ-5)
  • Диференціація за: швидкістю, вартістю, інтеграцією, вертикальною спеціалізацією
  • Багатокрокові автономні агенти стають мейнстрімом (33% працівників сфери знань)
  • Відкритий код усуває розрив у якості, зберігає перевагу у вартості/кастомізації

Остаточний переможець? Ймовірно, не єдиний гравець, а взаємодоповнюючі екосистеми, що обслуговують різні кластери використання. Як і у випадку з ОС для смартфонів (iOS + Android співіснують), не "переможець забирає все", а "переможець забирає сегмент".

Для підприємств: мультимодельна стратегія стає стандартною - GPT для загальних задач, Claude для міркувань з високими ставками, Gemini Flash для об'ємних задач, Llama налаштована для пропрієтарних задач.

2025 рік - це не рік "найкращої моделі", а рік розумної оркестровки між взаємодоповнюючими моделями.

Джерела:

  • Звіт Стенфордського індексу штучного інтелекту за 2025 рік
  • Картка антропологічної моделі Клод Сонет 4.5
  • Технічний звіт OpenAI GPT-4o
  • Системна карта Google DeepMind Gemini 2.0
  • Технічний документ DeepSeek-V3 (arXiv)
  • Епоха ШІ - тенденції в машинному навчанні
  • Gartner AI & Analytics Summit 2025
  • Звіт McKinsey про стан штучного інтелекту 2025
  • Опитування Pew Research Center щодо усиновлення штучного інтелекту
  • Аналитика платформи Similarweb

Ресурси для розвитку бізнесу

9 листопада 2025 року

Регулювання штучного інтелекту для споживчих додатків: як підготуватися до нових правил 2025 року

2025 рік знаменує собою кінець ери "Дикого Заходу" для ШІ: Закон ЄС про ШІ набув чинності в серпні 2024 року, зобов'язання щодо ШІ-грамотності - з 2 лютого 2025 року, управління та GPAI - з 2 серпня. Каліфорнійські першопрохідці з SB 243 (народився після самогубства Сьюелла Сетцера, 14-річного підлітка, який розвинув емоційні стосунки з чат-ботом) накладають заборону на системи нав'язливої винагороди, виявлення суїцидальних думок, нагадування кожні 3 години "Я не людина", незалежний громадський аудит, штрафи в розмірі $1 000 за порушення. SB 420 вимагає проведення оцінки впливу "автоматизованих рішень з високим рівнем ризику" з правом на оскарження з боку людини. Реальне правозастосування: Noom назвав 2022 рік для ботів, які видавали себе за тренерів-людей, виплативши 56 мільйонів доларів. Національна тенденція: Алабама, Гаваї, Іллінойс, Мен, Массачусетс класифікують неповідомлення чат-ботів зі штучним інтелектом як порушення UDAP. Трирівневий підхід до критично важливих систем (охорона здоров'я/транспорт/енергетика): сертифікація перед розгортанням, прозоре розкриття інформації для споживачів, реєстрація загального призначення + тестування безпеки. Регуляторна клаптикова ковдра без федеральних преференцій: компанії з різних штатів повинні орієнтуватися у змінних вимогах. ЄС з серпня 2026 року: інформувати користувачів про взаємодію зі штучним інтелектом, якщо вона не очевидна, вміст, створений штучним інтелектом, має бути позначений як машинозчитуваний.
9 листопада 2025 року

Регулювання того, що не створюється: чи ризикує Європа залишитися технологічно неактуальною?

Європа залучає лише десяту частину світових інвестицій у штучний інтелект, але претендує на те, щоб диктувати глобальні правила. Це "Брюссельський ефект" - встановлення правил у планетарному масштабі за допомогою ринкової влади без стимулювання інновацій. Закон про штучний інтелект набуває чинності за поетапним графіком до 2027 року, але транснаціональні технологічні компанії реагують на це креативними стратегіями ухилення: посилаючись на комерційну таємницю, щоб уникнути розкриття даних про навчання, створюючи технічно сумісні, але незрозумілі резюме, використовуючи самооцінку, щоб знизити клас систем з "високого ризику" до "мінімального ризику", шукаючи країни-члени з менш суворим контролем. Парадокс екстериторіального авторського права: ЄС вимагає від OpenAI дотримуватися європейських законів навіть для навчання за межами Європи - принцип, який ніколи раніше не зустрічався в міжнародному праві. Виникає "подвійна модель": обмежені європейські версії проти просунутих глобальних версій тих самих продуктів ШІ. Реальний ризик: Європа стає "цифровою фортецею", ізольованою від глобальних інновацій, а європейські громадяни отримують доступ до гірших технологій. Суд ЄС у справі про кредитний скоринг вже відхилив захист "комерційної таємниці", але інтерпретаційна невизначеність залишається величезною - що саме означає "достатньо детальне резюме"? Ніхто не знає. Останнє питання без відповіді: чи створює ЄС етичний третій шлях між американським капіталізмом і китайським державним контролем, чи просто експортує бюрократію в сферу, де вона не конкурує? Наразі: світовий лідер у регулюванні ШІ, маргінал у його розвитку. Величезна програма.
9 листопада 2025 року

Винятки: де наука про дані зустрічається з історіями успіху

Наука про дані перевернула парадигму з ніг на голову: викиди більше не є "помилками, які потрібно усунути", а цінною інформацією, яку потрібно зрозуміти. Один викид може повністю спотворити модель лінійної регресії - змінити нахил з 2 до 10, але його усунення може означати втрату найважливішого сигналу в наборі даних. Машинне навчання представляє складні інструменти: Isolation Forest ізолює викиди шляхом побудови випадкових дерев рішень, Local Outlier Factor аналізує локальну щільність, Autoencoders реконструює нормальні дані і повідомляє про те, що вони не можуть відтворити. Існують глобальні викиди (температура -10°C в тропіках), контекстуальні викиди (витрати 1000 євро в бідному районі), колективні викиди (синхронізовані сплески трафіку в мережі, що вказують на атаку). Паралельно з Гладуеллом: "правило 10 000 годин" оскаржується - Пол Маккартні сказав: "Багато гуртів провели 10 000 годин у Гамбурзі без успіху, теорія не є безпомилковою". Азійський математичний успіх є не генетичним, а культурним: китайська система числення більш інтуїтивна, вирощування рису потребує постійного вдосконалення на відміну від територіальної експансії західного сільського господарства. Реальні застосування: британські банки відшкодовують 18% потенційних збитків завдяки виявленню аномалій у реальному часі, виробництво виявляє мікроскопічні дефекти, які не помічає людина, охорона здоров'я перевіряє дані клінічних випробувань з чутливістю виявлення аномалій понад 85%. Останній урок: оскільки наука про дані переходить від усунення відхилень до їх розуміння, ми повинні розглядати нестандартні кар'єри не як аномалії, які потрібно виправляти, а як цінні траєкторії, які потрібно вивчати.