Newsletter

Полунична проблема

"Скільки "р" у слові "полуниця"?" - GPT-4o відповідає "дві", шестирічна дитина знає, що три. Проблема в токенізації: модель бачить [str][aw][berry], а не літери. OpenAI не вирішив цю проблему з o1 - він обійшов її, навчивши модель "думати, перш ніж говорити". Результат: 83% проти 13% на математичній олімпіаді, але 30 секунд замість 3 і втричі більша вартість. Мовні моделі є надзвичайними ймовірнісними інструментами - але вам все одно потрібна людина, щоб рахувати.

Підсумуйте цю статтю за допомогою ШІ

Від "полуничної проблеми" до моделі o1: як OpenAI вирішив (частково) проблему обмеження токенізації

Влітку 2024 року вірусний інтернет-мем поставив у незручне становище найдосконаліші мовні моделі світу: "Скільки "р" у слові "полуниця"?" Правильна відповідь - три, але GPT-4o вперто відповіла "дві". Здавалося б, тривіальна помилка, яка виявила фундаментальне обмеження мовних моделей: їхню нездатність аналізувати окремі літери в словах.

12 вересня 2024 року OpenAI випустив o1, відому під кодовою назвою "Полуниця", - першу модель у новій серії "моделей міркувань", розроблених спеціально для подолання цього типу обмежень. І так, назва не випадкова: як підтвердив дослідник OpenAI, o1 нарешті навчився правильно рахувати літеру "r" у слові "strawberry".

Але рішення не таке, як уявлялося в оригінальній статті. OpenAI не "навчав" модель аналізувати слова літеру за літерою. Замість цього він розробив зовсім інший підхід: навчити модель "міркувати", перш ніж відповідати.

Проблема підрахунку: чому моделі помиляються

Проблема коріниться в токенізації - фундаментальному процесі, за допомогою якого мовні моделі обробляють текст. Як пояснюється в технічній статті, опублікованій в arXiv у травні 2025 року ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), моделі розглядають слова не як послідовності літер, а як "токени" - одиниці значення, перетворені на числа.

Коли GPT-4 обробляє слово "strawberry", його токенізатор ділить його на три частини: [str][aw][berry], кожна з яких має певний числовий ідентифікатор (496, 675, 15717). Для моделі "полуниця" - це не послідовність з 10 літер, а послідовність з 3 числових токенів. Це ніби він читає книгу, де кожне слово замінено кодом, а потім хтось просить його порахувати літери в коді, який він ніколи не бачив записаним.

Проблема ускладнюється складними словами. "Хронометр" розбивається на окремі лексеми, що унеможливлює визначення моделлю точного положення літер без явного процесу міркування. Фрагментація впливає не лише на підрахунок літер, а й на розуміння внутрішньої структури слів.

Рішення o1: Подумайте, перш ніж реагувати

OpenAI o1 вирішив проблему несподіваним чином: замість того, щоб модифікувати токенізацію - що технічно складно і поставило б під загрозу ефективність моделі - він навчив систему "думати перед тим, як говорити", використовуючи техніку, яка називається "ланцюжок міркувань".

Коли ви запитуєте o1, скільки "r" у слові "полуниця", модель не відповідає одразу. Вона витрачає кілька секунд - іноді навіть хвилин для складних запитань - на внутрішню обробку "ланцюжка міркувань", прихованого від користувача. Цей процес дозволяє їй це зробити:

  1. Визнання того, що попит вимагає аналізу на рівні символів
  2. Розробка стратегії розбиття слова на частини
  3. Тестування відповіді за допомогою різних підходів
  4. Виправте помилки перед тим, як дати остаточну відповідь

Як пояснив дослідник OpenAI Ноам Браун у серії постів на X: "o1 навчається за допомогою навчання з підкріпленням "думати" перед тим, як відповісти за допомогою приватного ланцюжка думок. Під час навчання модель отримує винагороду за кожен правильний крок у процесі міркувань, а не лише за остаточну правильну відповідь.

Результати вражаючі, але дороговартісні. На відбірковому іспиті до Міжнародної олімпіади з математики o1 вирішив 83% завдань правильно проти 13% у GPT-4o. У питаннях докторського іспиту з природничих наук вона досягла 78% точності проти 56% у GPT-4o. Але ця потужність має свою ціну: o1 витрачає більше 30 секунд на відповіді на питання, які GPT-4o вирішує за 3 секунди, і коштує $15 за мільйон введених токенів проти $5 для GPT-4o.

Ланцюг думок: як це працює насправді

Цей метод не магічний, а методичний. Коли o1 отримує підказку, він внутрішньо генерує довгу послідовність "думок", які не показуються користувачеві. Для проблеми з "r" у слові "strawberry" внутрішній процес може бути таким:

"Спершу я маю зрозуміти структуру слова. Полуниця може бути позначена як [str][aw][berry]. Щоб порахувати "r", я маю реконструювати повне слово на рівні символів. Str містить: s-t-r (1 'r'). Aw містить: a-w (0 'r'). Berry містить: b-e-r-y (2 'r'). Разом: 1+0+2 = 3 'r'. Перевіряю: strawberry = s-t-r-a-w-b-e-r-r-y. Рахую "р": позиція 3, позиція 8, позиція 9. Підтверджую: 3 "р".

Ці внутрішні міркування приховані за задумом. OpenAI прямо забороняє користувачам намагатися розкрити хід думок o1, відстежуючи підказки та потенційно відкликаючи доступ тим, хто порушує це правило. Компанія пояснює це міркуваннями безпеки ШІ та конкурентної переваги, але рішення критикують як втрату прозорості для розробників, які працюють з мовними моделями.

Стійкі обмеження: o1 Недосконалість

Незважаючи на прогрес, o1 не вирішив проблему повністю. У дослідженні, опублікованому в журналі Language Log у січні 2025 року, різні моделі тестувалися на більш складному завданні: "Напишіть абзац, де друга буква кожного речення складає слово "КОД"".

o1 standard ($20 на місяць) вийшов з ладу, помилково вважаючи першу літеру кожного початкового слова "другою літерою". o1-pro ($200 на місяць) виправив проблему... після 4 хвилин і 10 секунд "роздумів". DeepSeek R1, китайська модель, яка сколихнула ринок у січні 2025 року, припустилася тієї ж помилки, що і стандарт o1.

Фундаментальна проблема залишається: моделі все ще бачать текст через токени, а не літери. o1 навчилася "обходити" це обмеження за допомогою міркувань, але не усунула його. Як зазначив один дослідник у Language Log: "Токенізація є частиною суті мовних моделей; для будь-якої неправильної відповіді поясненням є саме "ну, токенізація"".

Академічні дослідження: виникнення розуміння на рівні символів

Важлива стаття, опублікована в arXiv у травні 2025 року ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), аналізує це явище з теоретичної точки зору. Дослідники створили 19 синтетичних завдань, які ізолюють міркування на рівні символів у контрольованих контекстах, демонструючи, що ці здібності з'являються раптово і лише на пізніх етапах навчання.

Дослідження припускає, що вивчення композиції персонажів принципово не відрізняється від вивчення здорового глузду - воно відбувається через процеси "концептуального просочування", коли модель досягає критичної маси прикладів і зв'язків.

Дослідники пропонують легку архітектурну модифікацію, яка значно покращує міркування на рівні символів, зберігаючи при цьому індуктивні переваги моделей на основі підслівників. Однак ці модифікації залишаються експериментальними і не були реалізовані в комерційних моделях.

Практичні висновки: коли варто довіряти, а коли ні

Кейс з полуницею дає важливий урок про надійність мовних моделей: вони є імовірнісними інструментами, а не детермінованими калькуляторами. Як зазначив Марк Ліберман у Language Log: "Ви повинні з обережністю довіряти відповіді будь-якої сучасної системи штучного інтелекту в завданнях, які передбачають підрахунок речей".

Це не означає, що моделі марні. Як зазначив один з коментаторів: "Те, що кіт робить дурну помилку, злякавшись огірка, не означає, що ми не повинні довіряти йому набагато складніше завдання - не пускати гризунів у будівлю". Мовні моделі не є правильним інструментом, якщо ви хочете систематично рахувати літери, але вони чудово підходять для автоматичної обробки тисяч транскриптів подкастів і вилучення імен гостей та ведучих.

Для завдань, що вимагають абсолютної точності - посадка космічного корабля на Марс, розрахунок фармацевтичних доз, перевірка дотримання законодавства - сучасні мовні моделі залишаються неадекватними без людського нагляду або зовнішньої перевірки. Їхня імовірнісна природа робить їх потужними для зіставлення шаблонів і творчої генерації, але ненадійними для завдань, де помилка неприпустима.

Майбутнє: до моделей, які міркують щогодини

OpenAI заявила, що має намір експериментувати з моделями o1, які "міркують годинами, днями або навіть тижнями", щоб ще більше підвищити їхню здатність до міркувань. У грудні 2024 року було анонсовано o3 (назва o2 була пропущена, щоб уникнути конфлікту з мобільним оператором O2), а в березні 2025 року було випущено API o1-pro, найдорожчої моделі ШІ OpenAI на сьогоднішній день, за ціною $150 за мільйон токенів на вході і $600 за мільйон на виході.

Напрямок зрозумілий: замість того, щоб робити моделі все більшими і більшими (масштабування), OpenAI інвестує в те, щоб змусити їх "думати" довше (обчислення під час тестування). Такий підхід може бути більш енергетично та обчислювально стійким, ніж навчання все більш масивних моделей.

Але залишається відкритим питання: чи дійсно ці моделі "міркують", чи просто імітують міркування за допомогою більш складних статистичних моделей? Дослідження Apple, опубліковане в жовтні 2024 року, показало, що такі моделі, як o1, можуть відтворювати кроки міркувань з власних навчальних даних. Змінюючи числа та імена в математичних задачах або просто повторно запускаючи ту саму задачу, моделі показували значно гірші результати. Додавання сторонньої, але логічно нерелевантної інформації призводило до падіння продуктивності деяких моделей на 65%.

Висновок: Потужні інструменти з фундаментальними обмеженнями

Полунична проблема і рішення o1 показують як потенціал, так і невід'ємні обмеження сучасних мовних моделей. OpenAI показав, що завдяки цілеспрямованому навчанню та додатковому часу обробки моделі можуть подолати певні структурні обмеження токенізації. Але вони не усунули їх - вони обійшли їх.

Для користувачів і розробників практичний урок очевидний: розуміння того, як працюють ці системи - що вони роблять добре, а що ні - є вирішальним для їх ефективного використання. Мовні моделі є чудовим інструментом для імовірнісних задач, пошуку закономірностей, творчої генерації та синтезу інформації. Але для завдань, що вимагають детермінованої точності - обчислення, підрахунку, перевірки конкретних фактів - вони залишаються ненадійними без зовнішнього нагляду або додаткових інструментів.

Назва "Полуничка" залишиться як іронічне нагадування про це фундаментальне обмеження: навіть найдосконаліші у світі системи штучного інтелекту можуть спіткнутися об питання, які шестирічна дитина вирішила б миттєво. Не тому, що вони дурні, а тому, що вони "мислять" у спосіб, який кардинально відрізняється від нашого - і, можливо, нам слід припинити очікувати, що вони будуть мислити, як люди.

Джерела:

  • OpenAI - "Learning to Reason with LLMs" (офіційна публікація в блозі, вересень 2024 року)
  • Вікіпедія - "OpenAI o1" (статтю оновлено у січні 2025 року)
  • Косма, Адріан та ін. - "Проблема полуниці: поява розуміння на рівні символів у токенізованих мовних моделях", arXiv:2505.14172 (травень 2025)
  • Ліберман, Марк - "Системи штучного інтелекту все ще не вміють рахувати", Language Log (січень 2025)
  • Yang, Yu - "Чому моделі великих мов борються при підрахунку літер у слові?", Medium (лютий 2025).
  • Орланд, Кайл - "Як DeepSeek R1 справляється з найкращими моделями міркувань OpenAI?", Ars Technica
  • Браун, Ноам (OpenAI) - Серія постів на X/Twitter (вересень 2024)
  • TechCrunch - "OpenAI представляє o1, модель, яка може сама себе перевіряти" (вересень 2024 року)
  • 16x Підказка - "Чому ChatGPT не може порахувати, скільки рупій у полуниці" (оновлено у червні 2025 року)

Ресурси для розвитку бізнесу

9 листопада 2025 року

Регулювання штучного інтелекту для споживчих додатків: як підготуватися до нових правил 2025 року

2025 рік знаменує собою кінець ери "Дикого Заходу" для ШІ: Закон ЄС про ШІ набув чинності в серпні 2024 року, зобов'язання щодо ШІ-грамотності - з 2 лютого 2025 року, управління та GPAI - з 2 серпня. Каліфорнійські першопрохідці з SB 243 (народився після самогубства Сьюелла Сетцера, 14-річного підлітка, який розвинув емоційні стосунки з чат-ботом) накладають заборону на системи нав'язливої винагороди, виявлення суїцидальних думок, нагадування кожні 3 години "Я не людина", незалежний громадський аудит, штрафи в розмірі $1 000 за порушення. SB 420 вимагає проведення оцінки впливу "автоматизованих рішень з високим рівнем ризику" з правом на оскарження з боку людини. Реальне правозастосування: Noom назвав 2022 рік для ботів, які видавали себе за тренерів-людей, виплативши 56 мільйонів доларів. Національна тенденція: Алабама, Гаваї, Іллінойс, Мен, Массачусетс класифікують неповідомлення чат-ботів зі штучним інтелектом як порушення UDAP. Трирівневий підхід до критично важливих систем (охорона здоров'я/транспорт/енергетика): сертифікація перед розгортанням, прозоре розкриття інформації для споживачів, реєстрація загального призначення + тестування безпеки. Регуляторна клаптикова ковдра без федеральних преференцій: компанії з різних штатів повинні орієнтуватися у змінних вимогах. ЄС з серпня 2026 року: інформувати користувачів про взаємодію зі штучним інтелектом, якщо вона не очевидна, вміст, створений штучним інтелектом, має бути позначений як машинозчитуваний.
9 листопада 2025 року

Регулювання того, що не створюється: чи ризикує Європа залишитися технологічно неактуальною?

Європа залучає лише десяту частину світових інвестицій у штучний інтелект, але претендує на те, щоб диктувати глобальні правила. Це "Брюссельський ефект" - встановлення правил у планетарному масштабі за допомогою ринкової влади без стимулювання інновацій. Закон про штучний інтелект набуває чинності за поетапним графіком до 2027 року, але транснаціональні технологічні компанії реагують на це креативними стратегіями ухилення: посилаючись на комерційну таємницю, щоб уникнути розкриття даних про навчання, створюючи технічно сумісні, але незрозумілі резюме, використовуючи самооцінку, щоб знизити клас систем з "високого ризику" до "мінімального ризику", шукаючи країни-члени з менш суворим контролем. Парадокс екстериторіального авторського права: ЄС вимагає від OpenAI дотримуватися європейських законів навіть для навчання за межами Європи - принцип, який ніколи раніше не зустрічався в міжнародному праві. Виникає "подвійна модель": обмежені європейські версії проти просунутих глобальних версій тих самих продуктів ШІ. Реальний ризик: Європа стає "цифровою фортецею", ізольованою від глобальних інновацій, а європейські громадяни отримують доступ до гірших технологій. Суд ЄС у справі про кредитний скоринг вже відхилив захист "комерційної таємниці", але інтерпретаційна невизначеність залишається величезною - що саме означає "достатньо детальне резюме"? Ніхто не знає. Останнє питання без відповіді: чи створює ЄС етичний третій шлях між американським капіталізмом і китайським державним контролем, чи просто експортує бюрократію в сферу, де вона не конкурує? Наразі: світовий лідер у регулюванні ШІ, маргінал у його розвитку. Величезна програма.
9 листопада 2025 року

Винятки: де наука про дані зустрічається з історіями успіху

Наука про дані перевернула парадигму з ніг на голову: викиди більше не є "помилками, які потрібно усунути", а цінною інформацією, яку потрібно зрозуміти. Один викид може повністю спотворити модель лінійної регресії - змінити нахил з 2 до 10, але його усунення може означати втрату найважливішого сигналу в наборі даних. Машинне навчання представляє складні інструменти: Isolation Forest ізолює викиди шляхом побудови випадкових дерев рішень, Local Outlier Factor аналізує локальну щільність, Autoencoders реконструює нормальні дані і повідомляє про те, що вони не можуть відтворити. Існують глобальні викиди (температура -10°C в тропіках), контекстуальні викиди (витрати 1000 євро в бідному районі), колективні викиди (синхронізовані сплески трафіку в мережі, що вказують на атаку). Паралельно з Гладуеллом: "правило 10 000 годин" оскаржується - Пол Маккартні сказав: "Багато гуртів провели 10 000 годин у Гамбурзі без успіху, теорія не є безпомилковою". Азійський математичний успіх є не генетичним, а культурним: китайська система числення більш інтуїтивна, вирощування рису потребує постійного вдосконалення на відміну від територіальної експансії західного сільського господарства. Реальні застосування: британські банки відшкодовують 18% потенційних збитків завдяки виявленню аномалій у реальному часі, виробництво виявляє мікроскопічні дефекти, які не помічає людина, охорона здоров'я перевіряє дані клінічних випробувань з чутливістю виявлення аномалій понад 85%. Останній урок: оскільки наука про дані переходить від усунення відхилень до їх розуміння, ми повинні розглядати нестандартні кар'єри не як аномалії, які потрібно виправляти, а як цінні траєкторії, які потрібно вивчати.