Оголошення про проведення 'Strawberry" від OpenAI привернуло увагу до фундаментального обмеження мовних моделей: їхньої нездатності аналізувати окремі літери в словах. Цей недолік розкриває глибинні аспекти того, як вони працюють.
Проблема підрахунку
Коли ChatGPT просять порахувати "р" у слові "полуниця", модель часто помиляється. Ця помилка пов'язана не з браком інтелекту, а з тим, як мовні моделі аналізують текст. Щоб зрозуміти, чому так відбувається, потрібно знати поняття токенізація.
Світ, побачений через токени
Мовні моделі розглядають слова не як послідовності літер, а як "токени" - одиниці значення, перетворені на числа. Це схоже на читання книги, де кожне слово замінено числовим кодом. Наприклад, слово "шкільні підручники" розбивається на два окремі токени: "школа" і "книги". Це пояснює, чому модель намагається правильно порахувати букву "о" в цьому слові - вона не сприймає її як слово.
Показовий приклад
Уявіть, що ви вивчаєте мову, в якій слово "школа" завжди позначається числом "412". Якби хтось запитав вас, скільки букв "о" у слові "412", ми не змогли б правильно відповісти, навіть не бачивши цього слова повністю. Мовні моделі перебувають у схожій ситуації: вони обробляють значення через числа, не маючи доступу до буквеного складу слів.
Складність складних слів
Проблема ще більше загострюється зі складними словами. Слово "Timekeeper" розбите на окремі лексеми, через що моделі важко визначити точне розташування літер "і". Така фрагментація впливає не лише на підрахунок літер, а й на розуміння внутрішньої структури слова.
Вирішення полуничної проблеми (можливо)
Майбутня модель OpenAI, Strawberry, має подолати це обмеження, запровадивши інноваційний підхід до обробки тексту. Замість того, щоб покладатися лише на традиційну токенізацію, модель повинна мати можливість аналізувати слова на рівні окремих літер, що дозволить проводити більш точні операції підрахунку та аналізу.
Майбутні наслідки
Важливість цієї проблеми виходить за рамки простого підрахунку літер. Ця можливість гранульованого аналізу може значно покращити лінгвістичне розуміння моделей ШІ, даючи їм змогу вирішувати проблеми, які потребують детального аналізу тексту на рівні символів.
Запланована інтеграція цієї технології стане значним кроком вперед у напрямку створення мовних моделей, здатних "міркувати" про фундаментальні деталі мови, а не лише про статистичні закономірності.


