Newsletter

Ілюзія розуму: дебати, які стрясають світ штучного інтелекту

Apple публікує дві розгромні статті - "GSM-Symbolic" (жовтень 2024) та "The Illusion of Thinking" (червень 2025), які демонструють, як LLM не справляється з невеликими варіаціями класичних задач (Ханойська вежа, переправа через річку): "продуктивність знижується, коли змінюються лише числові значення". Нульовий успіх на складній Ханойській вежі. Але Алекс Лоусен (Open Philanthropy) заперечує "Ілюзією мислення", демонструючи невдалу методологію: невдачі були пов'язані з обмеженнями на виведення символів, а не з колапсом міркувань, автоматичні скрипти неправильно класифікували частково правильні результати, деякі головоломки були математично нерозв'язними. Повторюючи тести з рекурсивними функціями замість того, щоб перераховувати ходи, Claude/Gemini/GPT розгадали 15 рекордів Ханойської вежі. Гері Маркус приймає тезу Apple про "зміну розподілу", але стаття про хронометраж до WWDC піднімає стратегічні питання. Наслідки для бізнесу: наскільки можна довіряти ШІ у вирішенні критично важливих завдань? Рішення: нейросимволічні підходи - нейронні мережі для розпізнавання образів + мова, символьні системи для формальної логіки. Приклад: АІ-бухгалтерія розуміє "скільки витрат на відрядження?", але SQL/розрахунки/податковий аудит = детермінований код.
Фабіо Лоріа
Генеральний директор та засновник Electe‍
Коли міркування ШІ зустрічаються з реальністю: робот правильно застосовує логічне правило, але ідентифікує баскетбольний м'яч як апельсин. Ідеальна метафора того, як LLMs можуть імітувати логічні процеси, не володіючи справжнім розумінням.

Протягом останніх кількох місяців у спільноті штучного інтелекту точаться палкі дебати, спровоковані двома впливовими дослідженнями, опублікованими компанією Apple. Перша, "GSM-Symbolic (жовтень 2024 року), і друга, "Ілюзія мислення (червень 2025 року) поставили під сумнів передбачувані можливості міркувань у великих мовних моделях, викликавши неоднозначну реакцію в індустрії.

Як ми вже аналізували в нашій попередній статті "Ілюзія прогресу: симуляція загального штучного інтелекту без його досягнення".питання штучного мислення зачіпає саме серце того, що ми вважаємо інтелектом у машинах.

Що говорять дослідження Apple

Дослідники Apple провели систематичний аналіз великих моделей міркувань (Large Reasoning Models, LRM ) - моделей, які генерують детальні сліди міркувань перед тим, як дати відповідь. Результати виявилися несподіваними, а для багатьох - тривожними.

Проведені випробування

У дослідженні найдосконаліші моделі піддавалися класичним алгоритмічним головоломкам, таким як:

  • Ханойська вежа: математична головоломка, вперше розв'язана в 1957 році
  • Проблеми перетину річок: логічні головоломки зі специфічними обмеженнями
  • GSM-Symbolic Benchmark: Варіації математичних задач елементарного рівня

Перевірка мислення за допомогою класичних головоломок: проблема фермера, вовка, кози та капусти - одна з логічних головоломок, що використовується в дослідженнях Apple для оцінки мисленнєвих здібностей LLMs. Складність полягає в тому, щоб знайти правильну послідовність переходів, уникаючи того, щоб вовк з'їв козу або коза з'їла капусту, коли вони залишаться наодинці. Простий, але ефективний тест, що дозволяє відрізнити розуміння алгоритмів від запам'ятовування шаблонів.

Суперечливі результати

Результати показали, що навіть невеликі зміни у формулюванні завдань призводять до значних відмінностей у результатах, що свідчить про тривожну крихкість міркувань. Як повідомлялося в AppleInsider"продуктивність усіх моделей знижується, коли змінюються лише числові значення в тестових питаннях GSM-Symbolic".

Контрнаступ: ілюзія мислення

Реакція спільноти ШІ не змусила себе довго чекати. Алекс Лоусен з Open Philanthropy у співпраці з Клодом Опусом з Anthropic опублікували детальне спростування під назвою "Ілюзія мислення".в якому оскаржуються методології та висновки дослідження Apple.

Основні заперечення

  1. Ігнорування обмежень на виході: Багато збоїв, які пояснюються "колапсом міркувань", насправді були спричинені обмеженнями на вихідні токени моделі
  2. Неправильна оцінка: автоматичні скрипти також класифікували часткові, але алгоритмічно правильні результати як повну відмову
  3. Нерозв'язні задачі: деякі головоломки були математично нерозв'язними, але моделі були покарані за їх нерозв'язання

Підтверджувальні тести

Коли Лоусен повторив тести з альтернативними методологіями, попросивши моделі генерувати рекурсивні функції замість того, щоб перераховувати всі ходи, результати кардинально змінилися. Такі моделі, як Claude, Gemini та GPT, правильно розв'язували задачі про Ханойську вежу з 15 записами, що значно перевищує рівень складності, на якому Apple повідомила про нульовий успіх.

Авторитетні голоси в дебатах

Гарі Маркус: історичний критик

Гері Маркусдавній критик навичок аргументації магістрів права, сприйняв результати дослідження Apple як підтвердження своєї 20-річної тези. За словами Маркуса, магістри права продовжують боротися зі "зміщенням розподілу" - здатністю узагальнювати дані, що виходять за рамки навчання, - залишаючись при цьому "хорошими вирішувачами проблем, які вже були вирішені".

Спільнота LocalLlama

Дискусія також поширилася на спеціалізовані спільноти, такі як LocalLlama на Redditде розробники та дослідники обговорюють практичні наслідки для моделей з відкритим кодом та локальної реалізації.

Поза межами суперечок: що це означає для компаній

Стратегічні наслідки

Ця дискусія не є суто академічною. Вона має прямі наслідки для:

  • Впровадження штучного інтелекту на виробництві: наскільки можна довіряти моделям для критично важливих завдань?
  • Інвестиції в R&D: на чому зосередити ресурси для наступного прориву?
  • Комунікація зі стейкхолдерами: як керувати реалістичними очікуваннями щодо можливостей штучного інтелекту?

Нейросимволічний шлях

Як підкреслено в декількох технічних дослідженьзростає потреба в гібридних підходах, які б поєднували в собі різні підходи:

  • Нейронні мережі для розпізнавання образів і розуміння мови
  • Символьні системи для алгоритмічних міркувань та формальної логіки

Тривіальний приклад: АІ-помічник, який допомагає вести бухгалтерію. Мовна модель розуміє, коли ви запитуєте "скільки я витратив на подорожі цього місяця?", і витягує відповідні параметри (категорія: подорожі, період: цей місяць). Але SQL-запит, який звертається до бази даних, підраховує суму і перевіряє фіскальні обмеження? Це робить детермінований код, а не нейронна модель.

Час і стратегічний контекст

Спостерігачі не могли не помітити, що документ Apple був опублікований незадовго до WWDC, що викликало питання щодо стратегічних мотивів. Як показаваналіз 9to5Mac"вибір часу для публікації доповіді Apple - безпосередньо перед WWDC - підняв кілька брів. Чи було це важливим етапом дослідження, чи стратегічним кроком, спрямованим на репозиціонування Apple в більш широкому ландшафті ШІ?"

Уроки на майбутнє

Для дослідників

  • Експериментальне проектування: Важливість розрізнення архітектурних обмежень та обмежень реалізації
  • Ретельне оцінювання: потреба у складних критеріях, які відокремлюють когнітивні можливості від практичних обмежень
  • Методологічна прозорість: зобов'язання повністю документувати експериментальні установки та обмеження

Для компаній

  • Реалістичні очікування: визнати поточні обмеження, не відмовляючись від майбутнього потенціалу
  • Гібридні підходи: інвестування в рішення, що поєднують сильні сторони різних технологій
  • Безперервне оцінювання: Впроваджуйте системи тестування, які відображають реальні сценарії використання

Висновки: Навігація в умовах невизначеності

Дебати, викликані документами Apple, нагадують нам, що ми все ще перебуваємо на ранніх стадіях розуміння штучного інтелекту. Як зазначалося в нашій попередній статтірозрізнення між симуляцією та автентичним мисленням залишається однією з найскладніших проблем сучасності.

Справжній урок полягає не в тому, чи можуть ШІ "міркувати" в людському розумінні цього терміну, а в тому, як ми можемо побудувати системи, які використовують їхні сильні сторони, компенсуючи їхні обмеження. У світі, де штучний інтелект вже трансформує цілі галузі, питання вже не в тому, чи є ці інструменти "розумними", а в тому, як їх ефективно і відповідально використовувати.

Майбутнє корпоративного ШІ, ймовірно, буде не за одним революційним підходом, а за розумною оркестровкою декількох взаємодоповнюючих технологій. І в цьому сценарії здатність критично і чесно оцінювати можливості наших інструментів сама стає конкурентною перевагою.

Наша команда експертів готова надати індивідуальні консультації щодо стратегії вашої організації у сфері штучного інтелекту та впровадження надійних рішень.

Джерела та література:

Ресурси для розвитку бізнесу

9 листопада 2025 року

Повний посібник з програмного забезпечення для бізнес-аналітики для МСП

60% італійських МСП визнають, що мають критичні прогалини в підготовці даних, 29% навіть не мають спеціальної цифри - в той час як італійський ринок бізнес-аналітики зросте з $36,79 млрд до $69,45 млрд до 2034 року (CAGR 8,56%). Проблема не в технології, а в підході: малі та середні підприємства тонуть у даних, розкиданих між таблицями CRM, ERP, Excel, не перетворюючи їх на рішення. Це стосується як тих, хто починає з нуля, так і тих, хто хоче оптимізувати. Критерії вибору, які мають значення: зручність використання без місяців навчання, масштабованість, яка зростає разом з вами, інтеграція з існуючими системами, повна сукупна вартість володіння (впровадження + навчання + обслуговування) порівняно з вартістю самої лише ліцензії. 4-крокова дорожня карта - вимірювані SMART-цілі (зменшити відтік на 15% за 6 місяців), чисте мапування джерел даних (сміття на вході = сміття на виході), навчання команди культурі даних, пілотний проект з безперервним циклом зворотного зв'язку. ШІ змінює все: від описової BI (що сталося) до доповненої аналітики, яка виявляє приховані закономірності, предиктивної, яка оцінює майбутній попит, прескриптивної, яка пропонує конкретні дії. Electe демократизує цю силу для МСП.
9 листопада 2025 року

Система охолодження Google DeepMind AI: як штучний інтелект революціонізує енергоефективність центрів обробки даних

Google DeepMind досягає -40% енергії на охолодження центру обробки даних (але лише -4% загального споживання, оскільки охолодження становить 10% від загального) - точність 99,6% з похибкою 0,4% на PUE 1.1 завдяки 5-рівневому глибокому навчанню, 50 вузлам, 19 вхідним змінним на 184 435 навчальних вибірках (дані за 2 роки). Підтверджено на 3 об'єктах: Сінгапур (перше розгортання у 2016 році), Емшавен, Рада Блаффс (інвестиції у розмірі $5 млрд). PUE флоту Google 1,09 проти середнього по галузі 1,56-1,58. Модель Predictive Control прогнозує температуру/тиск на наступну годину, одночасно керуючи ІТ-навантаженням, погодою, станом обладнання. Гарантована безпека: дворівнева верифікація, оператори завжди можуть відключити ШІ. Критичні обмеження: нульова незалежна перевірка з боку аудиторських фірм/національних лабораторій, для кожного дата-центру потрібна індивідуальна модель (8 років не комерціалізована). Впровадження займає 6-18 місяців і потребує мультидисциплінарної команди (наука про дані, ОВіК, управління об'єктами). Застосовується не лише в дата-центрах: промислові підприємства, лікарні, торгові центри, корпоративні офіси. 2024-2025: Перехід Google на пряме рідинне охолодження для TPU v5p, що вказує на практичні межі оптимізації ШІ.
9 листопада 2025 року

Чому математика - це складно (навіть якщо ви штучний інтелект)

Мовні моделі не вміють множити і запам'ятовувати результати так, як ми запам'ятовуємо число пі, але це не робить їх математиками. Проблема структурна: вони навчаються за статистичною схожістю, а не за алгоритмічним розумінням. Навіть нові "моделі мислення", такі як o1, не справляються з тривіальними завданнями: вони правильно рахують "r" у слові "полуниця" після декількох секунд обробки, але не можуть написати абзац, де друга буква кожного речення складає слово. Преміум-версія за 200 доларів на місяць витрачає чотири хвилини на те, що дитина робить миттєво. DeepSeek і Mistral у 2025 році все ще неправильно рахують літери. Яке рішення з'являється? Гібридний підхід - найрозумніші моделі з'ясували, коли потрібно викликати справжній калькулятор, а не намагатися обчислити самостійно. Зміна парадигми: ШІ не повинен знати, як робити все, а лише організувати правильні інструменти. Останній парадокс: GPT-4 може блискуче пояснити вам теорію меж, але неправильно виконує множення, які кишеньковий калькулятор завжди виконує правильно. Для навчання математики вони чудові - пояснюють з безмежним терпінням, адаптують приклади, розбивають складні міркування. Для точних розрахунків? Точно на калькулятор, а не на штучний інтелект.