Newsletter

Ілюзія розуму: дебати, які стрясають світ штучного інтелекту

Apple публікує дві розгромні статті - "GSM-Symbolic" (жовтень 2024) та "The Illusion of Thinking" (червень 2025), які демонструють, як LLM не справляється з невеликими варіаціями класичних задач (Ханойська вежа, переправа через річку): "продуктивність знижується, коли змінюються лише числові значення". Нульовий успіх на складній Ханойській вежі. Але Алекс Лоусен (Open Philanthropy) заперечує "Ілюзією мислення", демонструючи невдалу методологію: невдачі були пов'язані з обмеженнями на виведення символів, а не з колапсом міркувань, автоматичні скрипти неправильно класифікували частково правильні результати, деякі головоломки були математично нерозв'язними. Повторюючи тести з рекурсивними функціями замість того, щоб перераховувати ходи, Claude/Gemini/GPT розгадали 15 рекордів Ханойської вежі. Гері Маркус приймає тезу Apple про "зміну розподілу", але стаття про хронометраж до WWDC піднімає стратегічні питання. Наслідки для бізнесу: наскільки можна довіряти ШІ у вирішенні критично важливих завдань? Рішення: нейросимволічні підходи - нейронні мережі для розпізнавання образів + мова, символьні системи для формальної логіки. Приклад: АІ-бухгалтерія розуміє "скільки витрат на відрядження?", але SQL/розрахунки/податковий аудит = детермінований код.
Фабіо Лоріа
Генеральний директор та засновник Electe‍
Коли міркування ШІ зустрічаються з реальністю: робот правильно застосовує логічне правило, але ідентифікує баскетбольний м'яч як апельсин. Ідеальна метафора того, як LLMs можуть імітувати логічні процеси, не володіючи справжнім розумінням.

Протягом останніх кількох місяців у спільноті штучного інтелекту точаться палкі дебати, спровоковані двома впливовими дослідженнями, опублікованими компанією Apple. Перша, "GSM-Symbolic (жовтень 2024 року), і друга, "Ілюзія мислення (червень 2025 року) поставили під сумнів передбачувані можливості міркувань у великих мовних моделях, викликавши неоднозначну реакцію в індустрії.

Як ми вже аналізували в нашій попередній статті "Ілюзія прогресу: симуляція загального штучного інтелекту без його досягнення".питання штучного мислення зачіпає саме серце того, що ми вважаємо інтелектом у машинах.

Що говорять дослідження Apple

Дослідники Apple провели систематичний аналіз великих моделей міркувань (Large Reasoning Models, LRM ) - моделей, які генерують детальні сліди міркувань перед тим, як дати відповідь. Результати виявилися несподіваними, а для багатьох - тривожними.

Проведені випробування

У дослідженні найдосконаліші моделі піддавалися класичним алгоритмічним головоломкам, таким як:

  • Ханойська вежа: математична головоломка, вперше розв'язана в 1957 році
  • Проблеми перетину річок: логічні головоломки зі специфічними обмеженнями
  • GSM-Symbolic Benchmark: Варіації математичних задач елементарного рівня

Перевірка мислення за допомогою класичних головоломок: проблема фермера, вовка, кози та капусти - одна з логічних головоломок, що використовується в дослідженнях Apple для оцінки мисленнєвих здібностей LLMs. Складність полягає в тому, щоб знайти правильну послідовність переходів, уникаючи того, щоб вовк з'їв козу або коза з'їла капусту, коли вони залишаться наодинці. Простий, але ефективний тест, що дозволяє відрізнити розуміння алгоритмів від запам'ятовування шаблонів.

Суперечливі результати

Результати показали, що навіть невеликі зміни у формулюванні завдань призводять до значних відмінностей у результатах, що свідчить про тривожну крихкість міркувань. Як повідомлялося в AppleInsider"продуктивність усіх моделей знижується, коли змінюються лише числові значення в тестових питаннях GSM-Symbolic".

Контрнаступ: ілюзія мислення

Реакція спільноти ШІ не змусила себе довго чекати. Алекс Лоусен з Open Philanthropy у співпраці з Клодом Опусом з Anthropic опублікували детальне спростування під назвою "Ілюзія мислення".в якому оскаржуються методології та висновки дослідження Apple.

Основні заперечення

  1. Ігнорування обмежень на виході: Багато збоїв, які пояснюються "колапсом міркувань", насправді були спричинені обмеженнями на вихідні токени моделі
  2. Неправильна оцінка: автоматичні скрипти також класифікували часткові, але алгоритмічно правильні результати як повну відмову
  3. Нерозв'язні задачі: деякі головоломки були математично нерозв'язними, але моделі були покарані за їх нерозв'язання

Підтверджувальні тести

Коли Лоусен повторив тести з альтернативними методологіями, попросивши моделі генерувати рекурсивні функції замість того, щоб перераховувати всі ходи, результати кардинально змінилися. Такі моделі, як Claude, Gemini та GPT, правильно розв'язували задачі про Ханойську вежу з 15 записами, що значно перевищує рівень складності, на якому Apple повідомила про нульовий успіх.

Авторитетні голоси в дебатах

Гарі Маркус: історичний критик

Гері Маркусдавній критик навичок аргументації магістрів права, сприйняв результати дослідження Apple як підтвердження своєї 20-річної тези. За словами Маркуса, магістри права продовжують боротися зі "зміщенням розподілу" - здатністю узагальнювати дані, що виходять за рамки навчання, - залишаючись при цьому "хорошими вирішувачами проблем, які вже були вирішені".

Спільнота LocalLlama

Дискусія також поширилася на спеціалізовані спільноти, такі як LocalLlama на Redditде розробники та дослідники обговорюють практичні наслідки для моделей з відкритим кодом та локальної реалізації.

Поза межами суперечок: що це означає для компаній

Стратегічні наслідки

Ця дискусія не є суто академічною. Вона має прямі наслідки для:

  • Впровадження штучного інтелекту на виробництві: наскільки можна довіряти моделям для критично важливих завдань?
  • Інвестиції в R&D: на чому зосередити ресурси для наступного прориву?
  • Комунікація зі стейкхолдерами: як керувати реалістичними очікуваннями щодо можливостей штучного інтелекту?

Нейросимволічний шлях

Як підкреслено в декількох технічних дослідженьзростає потреба в гібридних підходах, які б поєднували в собі різні підходи:

  • Нейронні мережі для розпізнавання образів і розуміння мови
  • Символьні системи для алгоритмічних міркувань та формальної логіки

Тривіальний приклад: АІ-помічник, який допомагає вести бухгалтерію. Мовна модель розуміє, коли ви запитуєте "скільки я витратив на подорожі цього місяця?", і витягує відповідні параметри (категорія: подорожі, період: цей місяць). Але SQL-запит, який звертається до бази даних, підраховує суму і перевіряє фіскальні обмеження? Це робить детермінований код, а не нейронна модель.

Час і стратегічний контекст

Спостерігачі не могли не помітити, що документ Apple був опублікований незадовго до WWDC, що викликало питання щодо стратегічних мотивів. Як показаваналіз 9to5Mac"вибір часу для публікації доповіді Apple - безпосередньо перед WWDC - підняв кілька брів. Чи було це важливим етапом дослідження, чи стратегічним кроком, спрямованим на репозиціонування Apple в більш широкому ландшафті ШІ?"

Уроки на майбутнє

Для дослідників

  • Експериментальне проектування: Важливість розрізнення архітектурних обмежень та обмежень реалізації
  • Ретельне оцінювання: потреба у складних критеріях, які відокремлюють когнітивні можливості від практичних обмежень
  • Методологічна прозорість: зобов'язання повністю документувати експериментальні установки та обмеження

Для компаній

  • Реалістичні очікування: визнати поточні обмеження, не відмовляючись від майбутнього потенціалу
  • Гібридні підходи: інвестування в рішення, що поєднують сильні сторони різних технологій
  • Безперервне оцінювання: Впроваджуйте системи тестування, які відображають реальні сценарії використання

Висновки: Навігація в умовах невизначеності

Дебати, викликані документами Apple, нагадують нам, що ми все ще перебуваємо на ранніх стадіях розуміння штучного інтелекту. Як зазначалося в нашій попередній статтірозрізнення між симуляцією та автентичним мисленням залишається однією з найскладніших проблем сучасності.

Справжній урок полягає не в тому, чи можуть ШІ "міркувати" в людському розумінні цього терміну, а в тому, як ми можемо побудувати системи, які використовують їхні сильні сторони, компенсуючи їхні обмеження. У світі, де штучний інтелект вже трансформує цілі галузі, питання вже не в тому, чи є ці інструменти "розумними", а в тому, як їх ефективно і відповідально використовувати.

Майбутнє корпоративного ШІ, ймовірно, буде не за одним революційним підходом, а за розумною оркестровкою декількох взаємодоповнюючих технологій. І в цьому сценарії здатність критично і чесно оцінювати можливості наших інструментів сама стає конкурентною перевагою.

Наша команда експертів готова надати індивідуальні консультації щодо стратегії вашої організації у сфері штучного інтелекту та впровадження надійних рішень.

Джерела та література:

Ресурси для розвитку бізнесу

9 листопада 2025 року

Регулювання штучного інтелекту для споживчих додатків: як підготуватися до нових правил 2025 року

2025 рік знаменує собою кінець ери "Дикого Заходу" для ШІ: Закон ЄС про ШІ набув чинності в серпні 2024 року, зобов'язання щодо ШІ-грамотності - з 2 лютого 2025 року, управління та GPAI - з 2 серпня. Каліфорнійські першопрохідці з SB 243 (народився після самогубства Сьюелла Сетцера, 14-річного підлітка, який розвинув емоційні стосунки з чат-ботом) накладають заборону на системи нав'язливої винагороди, виявлення суїцидальних думок, нагадування кожні 3 години "Я не людина", незалежний громадський аудит, штрафи в розмірі $1 000 за порушення. SB 420 вимагає проведення оцінки впливу "автоматизованих рішень з високим рівнем ризику" з правом на оскарження з боку людини. Реальне правозастосування: Noom назвав 2022 рік для ботів, які видавали себе за тренерів-людей, виплативши 56 мільйонів доларів. Національна тенденція: Алабама, Гаваї, Іллінойс, Мен, Массачусетс класифікують неповідомлення чат-ботів зі штучним інтелектом як порушення UDAP. Трирівневий підхід до критично важливих систем (охорона здоров'я/транспорт/енергетика): сертифікація перед розгортанням, прозоре розкриття інформації для споживачів, реєстрація загального призначення + тестування безпеки. Регуляторна клаптикова ковдра без федеральних преференцій: компанії з різних штатів повинні орієнтуватися у змінних вимогах. ЄС з серпня 2026 року: інформувати користувачів про взаємодію зі штучним інтелектом, якщо вона не очевидна, вміст, створений штучним інтелектом, має бути позначений як машинозчитуваний.
9 листопада 2025 року

Регулювання того, що не створюється: чи ризикує Європа залишитися технологічно неактуальною?

**НАЗВА: Європейський закон про штучний інтелект - парадокс: хто регулює те, що не розвивається** **РЕЗЮМЕ:** Європа залучає лише десяту частину світових інвестицій у штучний інтелект, але претендує на те, щоб диктувати глобальні правила. Це "Брюссельський ефект" - запровадження правил планетарного масштабу за допомогою ринкової сили без стимулювання інновацій. Закон про штучний інтелект набуває чинності за поетапним графіком до 2027 року, але транснаціональні технологічні компанії реагують на нього креативними стратегіями ухилення: посилаючись на комерційну таємницю, щоб уникнути розкриття даних про навчання, створюючи технічно сумісні, але незрозумілі резюме, використовуючи самооцінку, щоб знизити клас систем з "високого ризику" до "мінімального ризику", шукаючи країни-члени з менш суворим контролем. Парадокс екстериторіального авторського права: ЄС вимагає від OpenAI дотримуватися європейських законів навіть для навчання за межами Європи - принцип, який ніколи раніше не зустрічався в міжнародному праві. Виникає "подвійна модель": обмежені європейські версії проти просунутих глобальних версій тих самих продуктів ШІ. Реальний ризик: Європа стає "цифровою фортецею", ізольованою від глобальних інновацій, а європейські громадяни отримують доступ до гірших технологій. Суд ЄС у справі про кредитний скоринг вже відхилив захист "комерційної таємниці", але інтерпретаційна невизначеність залишається величезною - що саме означає "достатньо детальне резюме"? Ніхто не знає. Останнє питання без відповіді: чи створює ЄС етичний третій шлях між американським капіталізмом і китайським державним контролем, чи просто експортує бюрократію в сферу, де вона не конкурує? Наразі: світовий лідер у регулюванні ШІ, маргінал у його розвитку. Величезна програма.
9 листопада 2025 року

Винятки: де наука про дані зустрічається з історіями успіху

Наука про дані перевернула парадигму з ніг на голову: викиди більше не є "помилками, які потрібно усунути", а цінною інформацією, яку потрібно зрозуміти. Один викид може повністю спотворити модель лінійної регресії - змінити нахил з 2 до 10, але його усунення може означати втрату найважливішого сигналу в наборі даних. Машинне навчання представляє складні інструменти: Isolation Forest ізолює викиди шляхом побудови випадкових дерев рішень, Local Outlier Factor аналізує локальну щільність, Autoencoders реконструює нормальні дані і повідомляє про те, що вони не можуть відтворити. Існують глобальні викиди (температура -10°C в тропіках), контекстуальні викиди (витрати 1000 євро в бідному районі), колективні викиди (синхронізовані сплески трафіку в мережі, що вказують на атаку). Паралельно з Гладуеллом: "правило 10 000 годин" оскаржується - Пол Маккартні сказав: "Багато гуртів провели 10 000 годин у Гамбурзі без успіху, теорія не є безпомилковою". Азійський математичний успіх є не генетичним, а культурним: китайська система числення більш інтуїтивна, вирощування рису потребує постійного вдосконалення на відміну від територіальної експансії західного сільського господарства. Реальні застосування: британські банки відшкодовують 18% потенційних збитків завдяки виявленню аномалій у реальному часі, виробництво виявляє мікроскопічні дефекти, які не помічає людина, охорона здоров'я перевіряє дані клінічних випробувань з чутливістю виявлення аномалій понад 85%. Останній урок: оскільки наука про дані переходить від усунення відхилень до їх розуміння, ми повинні розглядати нестандартні кар'єри не як аномалії, які потрібно виправляти, а як цінні траєкторії, які потрібно вивчати.