Newsletter

Полунична проблема

"Скільки "р" у слові "полуниця"?" - GPT-4o відповідає "дві", шестирічна дитина знає, що три. Проблема в токенізації: модель бачить [str][aw][berry], а не літери. OpenAI не вирішив цю проблему з o1 - він обійшов її, навчивши модель "думати, перш ніж говорити". Результат: 83% проти 13% на математичній олімпіаді, але 30 секунд замість 3 і втричі більша вартість. Мовні моделі є надзвичайними ймовірнісними інструментами - але вам все одно потрібна людина, щоб рахувати.

Підсумуйте цю статтю за допомогою ШІ

Від "полуничної проблеми" до моделі o1: як OpenAI вирішив (частково) проблему обмеження токенізації

Влітку 2024 року вірусний інтернет-мем поставив у незручне становище найдосконаліші мовні моделі світу: "Скільки "р" у слові "полуниця"?" Правильна відповідь - три, але GPT-4o вперто відповіла "дві". Здавалося б, тривіальна помилка, яка виявила фундаментальне обмеження мовних моделей: їхню нездатність аналізувати окремі літери в словах.

12 вересня 2024 року OpenAI випустив o1, відому під кодовою назвою "Полуниця", - першу модель у новій серії "моделей міркувань", розроблених спеціально для подолання цього типу обмежень. І так, назва не випадкова: як підтвердив дослідник OpenAI, o1 нарешті навчився правильно рахувати літеру "r" у слові "strawberry".

Але рішення не таке, як уявлялося в оригінальній статті. OpenAI не "навчав" модель аналізувати слова літеру за літерою. Замість цього він розробив зовсім інший підхід: навчити модель "міркувати", перш ніж відповідати.

Проблема підрахунку: чому моделі помиляються

Проблема коріниться в токенізації - фундаментальному процесі, за допомогою якого мовні моделі обробляють текст. Як пояснюється в технічній статті, опублікованій в arXiv у травні 2025 року ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), моделі розглядають слова не як послідовності літер, а як "токени" - одиниці значення, перетворені на числа.

Коли GPT-4 обробляє слово "strawberry", його токенізатор ділить його на три частини: [str][aw][berry], кожна з яких має певний числовий ідентифікатор (496, 675, 15717). Для моделі "полуниця" - це не послідовність з 10 літер, а послідовність з 3 числових токенів. Це ніби він читає книгу, де кожне слово замінено кодом, а потім хтось просить його порахувати літери в коді, який він ніколи не бачив записаним.

Проблема ускладнюється складними словами. "Хронометр" розбивається на окремі лексеми, що унеможливлює визначення моделлю точного положення літер без явного процесу міркування. Фрагментація впливає не лише на підрахунок літер, а й на розуміння внутрішньої структури слів.

Рішення o1: Подумайте, перш ніж реагувати

OpenAI o1 вирішив проблему несподіваним чином: замість того, щоб модифікувати токенізацію - що технічно складно і поставило б під загрозу ефективність моделі - він навчив систему "думати перед тим, як говорити", використовуючи техніку, яка називається "ланцюжок міркувань".

Коли ви запитуєте o1, скільки "r" у слові "полуниця", модель не відповідає одразу. Вона витрачає кілька секунд - іноді навіть хвилин для складних запитань - на внутрішню обробку "ланцюжка міркувань", прихованого від користувача. Цей процес дозволяє їй це зробити:

  1. Визнання того, що попит вимагає аналізу на рівні символів
  2. Розробка стратегії розбиття слова на частини
  3. Тестування відповіді за допомогою різних підходів
  4. Виправте помилки перед тим, як дати остаточну відповідь

Як пояснив дослідник OpenAI Ноам Браун у серії постів на X: "o1 навчається за допомогою навчання з підкріпленням "думати" перед тим, як відповісти за допомогою приватного ланцюжка думок. Під час навчання модель отримує винагороду за кожен правильний крок у процесі міркувань, а не лише за остаточну правильну відповідь.

Результати вражаючі, але дороговартісні. На відбірковому іспиті до Міжнародної олімпіади з математики o1 вирішив 83% завдань правильно проти 13% у GPT-4o. У питаннях докторського іспиту з природничих наук вона досягла 78% точності проти 56% у GPT-4o. Але ця потужність має свою ціну: o1 витрачає більше 30 секунд на відповіді на питання, які GPT-4o вирішує за 3 секунди, і коштує $15 за мільйон введених токенів проти $5 для GPT-4o.

Ланцюг думок: як це працює насправді

Цей метод не магічний, а методичний. Коли o1 отримує підказку, він внутрішньо генерує довгу послідовність "думок", які не показуються користувачеві. Для проблеми з "r" у слові "strawberry" внутрішній процес може бути таким:

"Спершу я маю зрозуміти структуру слова. Полуниця може бути позначена як [str][aw][berry]. Щоб порахувати "r", я маю реконструювати повне слово на рівні символів. Str містить: s-t-r (1 'r'). Aw містить: a-w (0 'r'). Berry містить: b-e-r-y (2 'r'). Разом: 1+0+2 = 3 'r'. Перевіряю: strawberry = s-t-r-a-w-b-e-r-r-y. Рахую "р": позиція 3, позиція 8, позиція 9. Підтверджую: 3 "р".

Ці внутрішні міркування приховані за задумом. OpenAI прямо забороняє користувачам намагатися розкрити хід думок o1, відстежуючи підказки та потенційно відкликаючи доступ тим, хто порушує це правило. Компанія пояснює це міркуваннями безпеки ШІ та конкурентної переваги, але рішення критикують як втрату прозорості для розробників, які працюють з мовними моделями.

Стійкі обмеження: o1 Недосконалість

Незважаючи на прогрес, o1 не вирішив проблему повністю. У дослідженні, опублікованому в журналі Language Log у січні 2025 року, різні моделі тестувалися на більш складному завданні: "Напишіть абзац, де друга буква кожного речення складає слово "КОД"".

o1 standard ($20 на місяць) вийшов з ладу, помилково вважаючи першу літеру кожного початкового слова "другою літерою". o1-pro ($200 на місяць) виправив проблему... після 4 хвилин і 10 секунд "роздумів". DeepSeek R1, китайська модель, яка сколихнула ринок у січні 2025 року, припустилася тієї ж помилки, що і стандарт o1.

Фундаментальна проблема залишається: моделі все ще бачать текст через токени, а не літери. o1 навчилася "обходити" це обмеження за допомогою міркувань, але не усунула його. Як зазначив один дослідник у Language Log: "Токенізація є частиною суті мовних моделей; для будь-якої неправильної відповіді поясненням є саме "ну, токенізація"".

Академічні дослідження: виникнення розуміння на рівні символів

Важлива стаття, опублікована в arXiv у травні 2025 року ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), аналізує це явище з теоретичної точки зору. Дослідники створили 19 синтетичних завдань, які ізолюють міркування на рівні символів у контрольованих контекстах, демонструючи, що ці здібності з'являються раптово і лише на пізніх етапах навчання.

Дослідження припускає, що вивчення композиції персонажів принципово не відрізняється від вивчення здорового глузду - воно відбувається через процеси "концептуального просочування", коли модель досягає критичної маси прикладів і зв'язків.

Дослідники пропонують легку архітектурну модифікацію, яка значно покращує міркування на рівні символів, зберігаючи при цьому індуктивні переваги моделей на основі підслівників. Однак ці модифікації залишаються експериментальними і не були реалізовані в комерційних моделях.

Практичні висновки: коли варто довіряти, а коли ні

Кейс з полуницею дає важливий урок про надійність мовних моделей: вони є імовірнісними інструментами, а не детермінованими калькуляторами. Як зазначив Марк Ліберман у Language Log: "Ви повинні з обережністю довіряти відповіді будь-якої сучасної системи штучного інтелекту в завданнях, які передбачають підрахунок речей".

Це не означає, що моделі марні. Як зазначив один з коментаторів: "Те, що кіт робить дурну помилку, злякавшись огірка, не означає, що ми не повинні довіряти йому набагато складніше завдання - не пускати гризунів у будівлю". Мовні моделі не є правильним інструментом, якщо ви хочете систематично рахувати літери, але вони чудово підходять для автоматичної обробки тисяч транскриптів подкастів і вилучення імен гостей та ведучих.

Для завдань, що вимагають абсолютної точності - посадка космічного корабля на Марс, розрахунок фармацевтичних доз, перевірка дотримання законодавства - сучасні мовні моделі залишаються неадекватними без людського нагляду або зовнішньої перевірки. Їхня імовірнісна природа робить їх потужними для зіставлення шаблонів і творчої генерації, але ненадійними для завдань, де помилка неприпустима.

Майбутнє: до моделей, які міркують щогодини

OpenAI заявила, що має намір експериментувати з моделями o1, які "міркують годинами, днями або навіть тижнями", щоб ще більше підвищити їхню здатність до міркувань. У грудні 2024 року було анонсовано o3 (назва o2 була пропущена, щоб уникнути конфлікту з мобільним оператором O2), а в березні 2025 року було випущено API o1-pro, найдорожчої моделі ШІ OpenAI на сьогоднішній день, за ціною $150 за мільйон токенів на вході і $600 за мільйон на виході.

Напрямок зрозумілий: замість того, щоб робити моделі все більшими і більшими (масштабування), OpenAI інвестує в те, щоб змусити їх "думати" довше (обчислення під час тестування). Такий підхід може бути більш енергетично та обчислювально стійким, ніж навчання все більш масивних моделей.

Але залишається відкритим питання: чи дійсно ці моделі "міркують", чи просто імітують міркування за допомогою більш складних статистичних моделей? Дослідження Apple, опубліковане в жовтні 2024 року, показало, що такі моделі, як o1, можуть відтворювати кроки міркувань з власних навчальних даних. Змінюючи числа та імена в математичних задачах або просто повторно запускаючи ту саму задачу, моделі показували значно гірші результати. Додавання сторонньої, але логічно нерелевантної інформації призводило до падіння продуктивності деяких моделей на 65%.

Висновок: Потужні інструменти з фундаментальними обмеженнями

Полунична проблема і рішення o1 показують як потенціал, так і невід'ємні обмеження сучасних мовних моделей. OpenAI показав, що завдяки цілеспрямованому навчанню та додатковому часу обробки моделі можуть подолати певні структурні обмеження токенізації. Але вони не усунули їх - вони обійшли їх.

Для користувачів і розробників практичний урок очевидний: розуміння того, як працюють ці системи - що вони роблять добре, а що ні - є вирішальним для їх ефективного використання. Мовні моделі є чудовим інструментом для імовірнісних задач, пошуку закономірностей, творчої генерації та синтезу інформації. Але для завдань, що вимагають детермінованої точності - обчислення, підрахунку, перевірки конкретних фактів - вони залишаються ненадійними без зовнішнього нагляду або додаткових інструментів.

Назва "Полуничка" залишиться як іронічне нагадування про це фундаментальне обмеження: навіть найдосконаліші у світі системи штучного інтелекту можуть спіткнутися об питання, які шестирічна дитина вирішила б миттєво. Не тому, що вони дурні, а тому, що вони "мислять" у спосіб, який кардинально відрізняється від нашого - і, можливо, нам слід припинити очікувати, що вони будуть мислити, як люди.

Джерела:

  • OpenAI - "Learning to Reason with LLMs" (офіційна публікація в блозі, вересень 2024 року)
  • Вікіпедія - "OpenAI o1" (статтю оновлено у січні 2025 року)
  • Косма, Адріан та ін. - "Проблема полуниці: поява розуміння на рівні символів у токенізованих мовних моделях", arXiv:2505.14172 (травень 2025)
  • Ліберман, Марк - "Системи штучного інтелекту все ще не вміють рахувати", Language Log (січень 2025)
  • Yang, Yu - "Чому моделі великих мов борються при підрахунку літер у слові?", Medium (лютий 2025).
  • Орланд, Кайл - "Як DeepSeek R1 справляється з найкращими моделями міркувань OpenAI?", Ars Technica
  • Браун, Ноам (OpenAI) - Серія постів на X/Twitter (вересень 2024)
  • TechCrunch - "OpenAI представляє o1, модель, яка може сама себе перевіряти" (вересень 2024 року)
  • 16x Підказка - "Чому ChatGPT не може порахувати, скільки рупій у полуниці" (оновлено у червні 2025 року)

Ресурси для розвитку бізнесу

9 листопада 2025 року

Ілюзія розуму: дебати, які стрясають світ штучного інтелекту

Apple публікує дві розгромні статті - "GSM-Symbolic" (жовтень 2024) та "The Illusion of Thinking" (червень 2025), які демонструють, як LLM не справляється з невеликими варіаціями класичних задач (Ханойська вежа, переправа через річку): "продуктивність знижується, коли змінюються лише числові значення". Нульовий успіх на складній Ханойській вежі. Але Алекс Лоусен (Open Philanthropy) заперечує "Ілюзією мислення", демонструючи невдалу методологію: невдачі були пов'язані з обмеженнями на виведення символів, а не з колапсом міркувань, автоматичні скрипти неправильно класифікували частково правильні результати, деякі головоломки були математично нерозв'язними. Повторюючи тести з рекурсивними функціями замість того, щоб перераховувати ходи, Claude/Gemini/GPT розгадали 15 рекордів Ханойської вежі. Гері Маркус приймає тезу Apple про "зміну розподілу", але стаття про хронометраж до WWDC піднімає стратегічні питання. Наслідки для бізнесу: наскільки можна довіряти ШІ у вирішенні критично важливих завдань? Рішення: нейросимволічні підходи - нейронні мережі для розпізнавання образів + мова, символьні системи для формальної логіки. Приклад: АІ-бухгалтерія розуміє "скільки витрат на відрядження?", але SQL/розрахунки/податковий аудит = детермінований код.
9 листопада 2025 року

Tech Talk: Коли ШІ розробляє свої секретні мови

У той час як 61% людей вже насторожено ставляться до ШІ, який розуміє, у лютому 2025 року Gibberlink набрав 15 мільйонів переглядів, показавши дещо радикально нове: двох ШІ, які перестають говорити англійською і спілкуються за допомогою високочастотних звуків на частоті 1875-4500 Гц, незрозумілих для людини. Це не наукова фантастика, а протокол FSK, який підвищує продуктивність на 80%, підриваючи статтю 13 Закону ЄС про ШІ і створюючи дворівневу непрозорість: незбагненні алгоритми, що координують свої дії на нерозбірливих мовах. Наука показує, що ми можемо вивчити машинні протоколи (наприклад, азбуку Морзе зі швидкістю 20-40 слів на хвилину), але ми стикаємося з непереборними біологічними обмеженнями: 126 біт/с у людини проти понад Мбіт/с у машини. З'являються три нові професії - аналітик протоколів ШІ, аудитор комунікацій ШІ, дизайнер інтерфейсів ШІ-людина - в той час як IBM, Google і Anthropic розробляють стандарти (ACP, A2A, MCP), щоб уникнути остаточного "чорного ящика". Рішення, прийняті сьогодні щодо протоколів зв'язку ШІ, визначатимуть траєкторію розвитку штучного інтелекту на десятиліття вперед.