Ілюзія розуму: дебати, які стрясають світ штучного інтелекту

Newsletter

Ілюзія розуму: дебати, які стрясають світ штучного інтелекту

Apple публікує дві розгромні статті - "GSM-Symbolic" (жовтень 2024) та "The Illusion of Thinking" (червень 2025), які демонструють, як LLM не справляється з невеликими варіаціями класичних задач (Ханойська вежа, переправа через річку): "продуктивність знижується, коли змінюються лише числові значення". Нульовий успіх на складній Ханойській вежі. Але Алекс Лоусен (Open Philanthropy) заперечує "Ілюзією мислення", демонструючи невдалу методологію: невдачі були пов'язані з обмеженнями на виведення символів, а не з колапсом міркувань, автоматичні скрипти неправильно класифікували частково правильні результати, деякі головоломки були математично нерозв'язними. Повторюючи тести з рекурсивними функціями замість того, щоб перераховувати ходи, Claude/Gemini/GPT розгадали 15 рекордів Ханойської вежі. Гері Маркус приймає тезу Apple про "зміну розподілу", але стаття про хронометраж до WWDC піднімає стратегічні питання. Наслідки для бізнесу: наскільки можна довіряти ШІ у вирішенні критично важливих завдань? Рішення: нейросимволічні підходи - нейронні мережі для розпізнавання образів + мова, символьні системи для формальної логіки. Приклад: АІ-бухгалтерія розуміє "скільки витрат на відрядження?", але SQL/розрахунки/податковий аудит = детермінований код.

Фабіо Лоріа

Генеральний директор та засновник Electe‍

Коли міркування ШІ зустрічаються з реальністю: робот правильно застосовує логічне правило, але ідентифікує баскетбольний м'яч як апельсин. Ідеальна метафора того, як LLMs можуть імітувати логічні процеси, не володіючи справжнім розумінням.

‍

Протягом останніх кількох місяців у спільноті штучного інтелекту точаться палкі дебати, спровоковані двома впливовими дослідженнями, опублікованими компанією Apple. Перша, "GSM-Symbolic (жовтень 2024 року), і друга, "Ілюзія мислення (червень 2025 року) поставили під сумнів передбачувані можливості міркувань у великих мовних моделях, викликавши неоднозначну реакцію в індустрії.

‍

Як ми вже аналізували в нашій попередній статті "Ілюзія прогресу: симуляція загального штучного інтелекту без його досягнення".питання штучного мислення зачіпає саме серце того, що ми вважаємо інтелектом у машинах.

‍

Що говорять дослідження Apple

Дослідники Apple провели систематичний аналіз великих моделей міркувань (Large Reasoning Models, LRM ) - моделей, які генерують детальні сліди міркувань перед тим, як дати відповідь. Результати виявилися несподіваними, а для багатьох - тривожними.

‍

Проведені випробування

У дослідженні найдосконаліші моделі піддавалися класичним алгоритмічним головоломкам, таким як:

Ханойська вежа: математична головоломка, вперше розв'язана в 1957 році
Проблеми перетину річок: логічні головоломки зі специфічними обмеженнями
GSM-Symbolic Benchmark: Варіації математичних задач елементарного рівня

‍

Перевірка мислення за допомогою класичних головоломок: проблема фермера, вовка, кози та капусти - одна з логічних головоломок, що використовується в дослідженнях Apple для оцінки мисленнєвих здібностей LLMs. Складність полягає в тому, щоб знайти правильну послідовність переходів, уникаючи того, щоб вовк з'їв козу або коза з'їла капусту, коли вони залишаться наодинці. Простий, але ефективний тест, що дозволяє відрізнити розуміння алгоритмів від запам'ятовування шаблонів.

‍

Суперечливі результати

Результати показали, що навіть невеликі зміни у формулюванні завдань призводять до значних відмінностей у результатах, що свідчить про тривожну крихкість міркувань. Як повідомлялося в AppleInsider"продуктивність усіх моделей знижується, коли змінюються лише числові значення в тестових питаннях GSM-Symbolic".

‍

Контрнаступ: ілюзія мислення

‍

Реакція спільноти ШІ не змусила себе довго чекати. Алекс Лоусен з Open Philanthropy у співпраці з Клодом Опусом з Anthropic опублікували детальне спростування під назвою "Ілюзія мислення".в якому оскаржуються методології та висновки дослідження Apple.

Основні заперечення

Ігнорування обмежень на виході: Багато збоїв, які пояснюються "колапсом міркувань", насправді були спричинені обмеженнями на вихідні токени моделі
Неправильна оцінка: автоматичні скрипти також класифікували часткові, але алгоритмічно правильні результати як повну відмову
Нерозв'язні задачі: деякі головоломки були математично нерозв'язними, але моделі були покарані за їх нерозв'язання

Підтверджувальні тести

Коли Лоусен повторив тести з альтернативними методологіями, попросивши моделі генерувати рекурсивні функції замість того, щоб перераховувати всі ходи, результати кардинально змінилися. Такі моделі, як Claude, Gemini та GPT, правильно розв'язували задачі про Ханойську вежу з 15 записами, що значно перевищує рівень складності, на якому Apple повідомила про нульовий успіх.

‍

Авторитетні голоси в дебатах

‍

Гарі Маркус: історичний критик

Гері Маркусдавній критик навичок аргументації магістрів права, сприйняв результати дослідження Apple як підтвердження своєї 20-річної тези. За словами Маркуса, магістри права продовжують боротися зі "зміщенням розподілу" - здатністю узагальнювати дані, що виходять за рамки навчання, - залишаючись при цьому "хорошими вирішувачами проблем, які вже були вирішені".

‍

Спільнота LocalLlama

Дискусія також поширилася на спеціалізовані спільноти, такі як LocalLlama на Redditде розробники та дослідники обговорюють практичні наслідки для моделей з відкритим кодом та локальної реалізації.

‍

Поза межами суперечок: що це означає для компаній

Стратегічні наслідки

Ця дискусія не є суто академічною. Вона має прямі наслідки для:

Впровадження штучного інтелекту на виробництві: наскільки можна довіряти моделям для критично важливих завдань?
Інвестиції в R&D: на чому зосередити ресурси для наступного прориву?
Комунікація зі стейкхолдерами: як керувати реалістичними очікуваннями щодо можливостей штучного інтелекту?

Нейросимволічний шлях

Як підкреслено в декількох технічних дослідженьзростає потреба в гібридних підходах, які б поєднували в собі різні підходи:

Нейронні мережі для розпізнавання образів і розуміння мови
Символьні системи для алгоритмічних міркувань та формальної логіки

Тривіальний приклад: АІ-помічник, який допомагає вести бухгалтерію. Мовна модель розуміє, коли ви запитуєте "скільки я витратив на подорожі цього місяця?", і витягує відповідні параметри (категорія: подорожі, період: цей місяць). Але SQL-запит, який звертається до бази даних, підраховує суму і перевіряє фіскальні обмеження? Це робить детермінований код, а не нейронна модель.

‍

Час і стратегічний контекст

Спостерігачі не могли не помітити, що документ Apple був опублікований незадовго до WWDC, що викликало питання щодо стратегічних мотивів. Як показаваналіз 9to5Mac"вибір часу для публікації доповіді Apple - безпосередньо перед WWDC - підняв кілька брів. Чи було це важливим етапом дослідження, чи стратегічним кроком, спрямованим на репозиціонування Apple в більш широкому ландшафті ШІ?"

‍

Уроки на майбутнє

Для дослідників

Експериментальне проектування: Важливість розрізнення архітектурних обмежень та обмежень реалізації
Ретельне оцінювання: потреба у складних критеріях, які відокремлюють когнітивні можливості від практичних обмежень
Методологічна прозорість: зобов'язання повністю документувати експериментальні установки та обмеження

Для компаній

Реалістичні очікування: визнати поточні обмеження, не відмовляючись від майбутнього потенціалу
Гібридні підходи: інвестування в рішення, що поєднують сильні сторони різних технологій
Безперервне оцінювання: Впроваджуйте системи тестування, які відображають реальні сценарії використання

Висновки: Навігація в умовах невизначеності

‍

Дебати, викликані документами Apple, нагадують нам, що ми все ще перебуваємо на ранніх стадіях розуміння штучного інтелекту. Як зазначалося в нашій попередній статтірозрізнення між симуляцією та автентичним мисленням залишається однією з найскладніших проблем сучасності.

‍

Справжній урок полягає не в тому, чи можуть ШІ "міркувати" в людському розумінні цього терміну, а в тому, як ми можемо побудувати системи, які використовують їхні сильні сторони, компенсуючи їхні обмеження. У світі, де штучний інтелект вже трансформує цілі галузі, питання вже не в тому, чи є ці інструменти "розумними", а в тому, як їх ефективно і відповідально використовувати.

‍

Майбутнє корпоративного ШІ, ймовірно, буде не за одним революційним підходом, а за розумною оркестровкою декількох взаємодоповнюючих технологій. І в цьому сценарії здатність критично і чесно оцінювати можливості наших інструментів сама стає конкурентною перевагою.

‍

Наша команда експертів готова надати індивідуальні консультації щодо стратегії вашої організації у сфері штучного інтелекту та впровадження надійних рішень.

‍

Джерела та література:

GSM-Symbolic: розуміння обмежень математичних міркувань у великих мовних моделях - Дослідження машинного навчання Apple
Ілюзія мислення: розуміння сильних та слабких сторін моделей міркувань - Дослідження машинного навчання Apple
Новий документ відштовхує дослідження "краху міркувань" LLM Apple - 9to5Mac
Сім відповідей на вірусну аргументацію Apple - Гері Маркус
Ілюзія мислення: що документ Apple AI говорить про міркування LLM - Arize AI
Дослідження Apple доводить, що моделі ШІ на основі LLM є недосконалими - AppleInsider
Ілюзія прогресу: симуляція загального штучного інтелекту без його досягнення - Electe

Ресурси для розвитку бізнесу

9 листопада 2025 року

AI Trends 2025: 6 стратегічних рішень для безперешкодного впровадження штучного інтелекту

87% компаній визнають ШІ конкурентною необхідністю, але багато хто зазнає невдачі в інтеграції - проблема не в технології, а в підході. 73% керівників називають прозорість (Explainable AI) вирішальним фактором для залучення зацікавлених сторін, тоді як успішні впровадження слідують стратегії "починай з малого, думай про велике": цільові високоцінні пілотні проекти, а не тотальна трансформація бізнесу. Реальний кейс: виробнича компанія впроваджує предиктивне технічне обслуговування на основі штучного інтелекту на одній виробничій лінії, досягає зниження простоїв на 67% за 60 днів і каталізує впровадження в масштабах усього підприємства. Перевірені кращі практики: інтеграція через API/проміжне програмне забезпечення замість повної заміни для скорочення часу навчання; виділення 30% ресурсів на управління змінами з рольовим навчанням забезпечує +40% рівня впровадження та +65% задоволеності користувачів; паралельне впровадження для перевірки результатів ШІ в порівнянні з існуючими методами; поступова деградація з резервними системами; щотижневі оглядові цикли протягом перших 90 днів для моніторингу технічної продуктивності, впливу на бізнес, рівня впровадження, рентабельності інвестицій. Успіх вимагає балансу між технічними та людськими факторами: внутрішні чемпіони з ШІ, фокус на практичних вигодах, еволюційна гнучкість.

9 листопада 2025 року

Виграшна стратегія впровадження НА: план на 90 днів

87% команд підтримки помітили, що очікування клієнтів зросли, причому 68% пов'язують це з ШІ. Перші 90 днів важливі для того, щоб уникнути паралічу аналізу та почати досягати конкретних результатів. 3-етапний план охоплює від стратегічного узгодження до пілотного впровадження та вимірюваного розширення, уникаючи типових помилок і відстежуючи ключові показники, такі як ефективність і вплив на дохід. Завдяки спеціалізованій підтримці та постійному навчанню ви перетворите початкові успіхи на про-ІА культуру компанії.

9 листопада 2025 року

Розробники та штучний інтелект на веб-сайтах: виклики, інструменти та найкращі практики: міжнародна перспектива

Італія застрягла на позначці 8,2% впровадження ШІ (проти 13,5% в середньому по ЄС), тоді як у всьому світі 40% компаній вже використовують ШІ на практиці - і цифри показують, чому цей розрив є фатальним: чат-бот Amtrak генерує 800% рентабельності інвестицій, GrandStay економить $2,1 млн на рік, обробляючи 72% запитів автономно, Telenor збільшує доходи на 15%. У цьому звіті досліджується впровадження ШІ на веб-сайтах на практичних кейсах (Lutech Brain для тендерів, Netflix для рекомендацій, L'Oréal Beauty Gifter з 27-кратним залученням порівняно з електронною поштою) і розглядаються реальні технічні проблеми: якість даних, алгоритмічна упередженість, інтеграція з застарілими системами, обробка в режимі реального часу. Від рішень - передових обчислень для зменшення затримок, модульних архітектур, стратегій боротьби з упередженістю - до етичних питань (конфіденційність, бульбашки фільтрів, доступність для користувачів з обмеженими можливостями) та урядових кейсів (Гельсінкі з багатомовним перекладом за допомогою штучного інтелекту) - дізнайтеся, як веб-розробники перетворюються з кодерів на стратегів користувацького досвіду і чому ті, хто орієнтується в цій еволюції сьогодні, домінуватимуть в інтернеті завтра.

9 листопада 2025 року

Системи підтримки прийняття рішень зі штучним інтелектом: зростання ролі радників у корпоративному управлінні

77% компаній використовують ШІ, але лише 1% мають "зрілі" впровадження - проблема не в технології, а в підході: тотальна автоматизація vs інтелектуальна співпраця. Goldman Sachs з АІ-консультантом на 10 000 співробітників генерує +30% ефективності охоплення та +12% перехресних продажів, зберігаючи людські рішення; Kaiser Permanente запобігає 500 смертям на рік, аналізуючи 100 предметів на годину за 12 годин до початку, але залишає діагноз лікарям. Модель Advisor вирішує проблему дефіциту довіри (лише 44% довіряють корпоративному ШІ) завдяки трьом стовпам: зрозумілий ШІ з прозорою логікою, відкалібровані показники довіри, постійний зворотній зв'язок для вдосконалення. Цифри: $22,3 трлн до 2030 року, стратегічні співробітники, які використовують ШІ, побачать 4-кратну рентабельність інвестицій до 2026 року. Практична 3-етапна дорожня карта - навички оцінки та управління, пілотний проект з показниками довіри, поступове масштабування з безперервним навчанням - застосовується у фінансовій сфері (контрольована оцінка ризиків), охороні здоров'я (діагностична підтримка), виробництві (прогнозоване технічне обслуговування). Майбутнє - це не заміна людини штучним інтелектом, а ефективна організація людино-машинної співпраці.