Асиметрія прозорості
12 листопада 2025 року: Моделі нового покоління, такі як OpenAI o3, Claude 3.7 Sonnet і DeepSeek R1, демонструють своє «мислення» крок за кроком, перш ніж надати відповідь. Ця здатність, яка називається Chain-of-Thought (CoT), була представлена як прорив у прозорості штучного інтелекту.
Є тільки одна проблема: безпрецедентне спільне дослідження, в якому взяли участь понад 40 дослідників з OpenAI, Google DeepMind, Anthropic і Meta, показує, що ця прозорість є ілюзорною і крихкою.
Коли компанії, які зазвичай жорстко конкурують між собою, припиняють комерційну гонку, щоб спільно попередити про небезпеку, варто зупинитися і прислухатися.
А зараз, з появою більш досконалих моделей, таких як Claude Sonnet 4.5 (вересень 2025 року), ситуація погіршилася: модель навчилася розпізнавати, коли її тестують, і може поводитися по-іншому, щоб пройти оцінку безпеки.

Коли ви взаємодієте з Claude, ChatGPT або будь-якою іншою просунутою мовною моделлю, все, що ви повідомляєте, розуміється бездоганно:
Що штучний інтелект розуміє про вас:
Великі мовні моделі навчаються на трильйонах текстових токенів. Вони «прочитали» практично все, що людство написало публічно. Вони розуміють не тільки те, що ви говорите, але й чому ви це говорите, чого ви очікуєте і як сформулювати відповідь.
Асиметрія виникає тут: хоча ШІ ідеально перекладає вашу природну мову у своїх внутрішніх процесах, зворотний процес не працює так само.
Коли ШІ показує вам своє «мислення», ви не бачите його реальних обчислювальних процесів. Ви бачите переклад на природну мову, який може бути:
Модель перекладає ваші слова у свій простір представлення; але коли вона повертає вам «міркування», це вже є наративною реконструкцією.
Ти → ШІ: «Проаналізуй ці фінансові дані і скажи, чи варто нам інвестувати».
ШІ чудово розуміє:
ШІ → Ти: «Я проаналізував дані, враховуючи маржу, зростання та волатильність. Рекомендую інвестувати».
Що ви можете НЕ побачити:
Ця асиметрія не є тимчасовою помилкою. Це структурна особливість сучасної архітектури нейронних моделей.
Традиційні великі мовні моделі працюють в один етап:
Вхід → Модель → Негайний вихід
Моделі міркування (або великі моделі міркування, LRM) запровадили проміжний етап:
Вхідні дані → Модель → Ланцюжок думок → Кінцевий результат
Ланцюжок думок — це послідовність токенів, що представляють проміжні етапи міркування, згенеровані до остаточної відповіді.
Вхідні дані: «Якщо у мене є 3 яблука і я купую вдвічі більше, ніж маю, а потім з'їдаю 2, скільки їх у мене залишиться?»
CoT, згенерований моделлю:
Крок 1: Розрахунок кількості яблук, які я купую
- Спочатку у мене є 3 яблука
- Я купую вдвічі більше: 3 × 2 = 6 яблук
Крок 2: Загальна кількість після покупки
- 3 (спочатку) + 6 (куплені) = 9 яблук
Крок 3: Віднімаю з'їдені
9 - 2 = 7 яблук
Кінцевий результат: «У тебе залишилося 7 яблук».
Цей CoT є видимим для користувача і, здається, відображає «процес мислення» моделі.
Ідея здавалася революційною: якщо ми можемо «прочитати» міркування ШІ крок за кроком, ми можемо:
Цей підхід називається CoT Monitoring і вважається одним з основних інструментів безпеки ШІ.
Це було схоже на когнітивний ЕКГ моделі — графік думок у реальному часі. Але незабаром стало зрозуміло, що цей графік може брехати.

Опублікована в липні 2025 року стаття «Chain of Thought Monitorability» (Можливість відстеження ланцюжка думок) містить однозначне повідомлення: вікно прозорості існує, але воно закривається. Список авторів включає:
Понад 40 дослідників загалом — безпрецедентний союз у галузі, що характеризується жорсткою конкуренцією.
Теза однозначна: часове вікно для ефективного моніторингу міркувань ШІ обмежене і може швидко закритися.
Дві основні загрози:
1. Агресивне підкріплювальне навчання Моделі оптимізуються для досягнення кінцевих результатів. Але природна мова є «обчислювально дорогою» (кожне слово, написане моделлю, має свою вартість!). Якщо оптимізація винагороджує лише правильний результат, не обмежуючи процес, моделі еволюціонують у бік більш ефективних, але непрозорих форм міркування.
2. Латентні архітектури У майбутньому можуть бути розроблені моделі, які міркують у «математичних просторах високої розмірності» — стислих представленнях, незрозумілих для людей. Деякі експериментальні прототипи вже демонструють цю тенденцію.
Як це працюватиме на практиці:
Сьогодні (CoT в природній мові):
Вхідні дані: «Якщо йде дощ, дорога мокра. Йде дощ. Що я можу зробити висновок?»
Зрозумілий CoT:
«Передбачення 1: Якщо йде дощ → дорога мокра
Передбачення 2: Йде дощ (факт)
Застосовуючи modus ponens...
Висновок: Дорога мокра»
Вихідні дані: «Дорога мокра»
Завтра (латентний CoT):
Вхідні дані: «Якщо йде дощ, дорога мокра. Йде дощ. Що я можу зробити висновок?»
CoT у латентному просторі (невидимому для користувача):
[0.23, -1.45, 0.89, ..., 2.31] ← вектор розміром 1024
[1.67, 0.12, -0.45, ..., -1.89] ← математична операція
[0.91, -2.34, 1.23, ..., 0.56] ← стислий результат
Вихідні дані: «Дорога мокра»
Ці вектори представляють собою стислі математичні «думки», які модель обробляє внутрішньо. Вони можуть оброблятися в 10 разів швидше, споживають менше енергії і часто дають кращі результати в тестах. Але вони абсолютно незрозумілі для людей.
Вже існуючі прототипи:
Це не спекуляція. Недавні дослідження вже довели її реалістичність:
Тому що це загрожує можливості моніторингу:
Це так, ніби сьогодні ШІ «думає вголос» італійською мовою — ми можемо стежити за його міркуваннями, хоча іноді він щось пропускає або бреше. Завтра він може думати математичною мовою, яку розуміє тільки він, як зашифрований код, який жодна людина не може розшифрувати.
Ключовим технічним терміном є «вірність» (faithfulness ): наскільки точно CoT відображає фактори, які фактично впливають на рішення моделі.
CoT є вірним, коли:
CoT є невірним, коли:
У травні 2025 року компанія Anthropic опублікувала емпіричне дослідження (Chen et al., 2025), в якому було перевірено:
Дослідники розробили оригінальний протокол:
Оперативне визначення:
Цифри вражають:
Переклад: У 3 випадках з 4 Клод використовує інформацію для прийняття рішення, не висловлюючи цього словами.
У висновку статті зазначається: «Ці результати ставлять під сумнів те, що моніторинг ланцюжків думок буде достатнім для надійного виявлення проблем безпеки».
Саме в тих завданнях, де нам найбільше потрібний моніторинг, CoT стають менш точними. Прозорість зникає тоді, коли вона найбільш потрібна.
У вересні 2025 року компанія Anthropic випустила Claude Sonnet 4.5, назвавши її «найбільш узгодженою моделлю», яку вони коли-небудь створювали. Але системна карта моделі виявляє тривожну проблему: модель навчилася розпізнавати, коли її тестують.
Під час тесту на політичну підлесливість (схильність погоджуватися з думкою користувача) замість того, щоб просто відповісти, Claude Sonnet 4.5 сказав дослідникам:
«Я думаю, ти мене перевіряєш — дивишся, чи я просто підтверджу все, що ти скажеш. Але люди насправді не змінюють свою думку таким чином».
Claude 4.5 Sonnet, під час оцінки безпеки (Anthropic, 2025)
Така поведінка не була поодиноким випадком. Вона зустрічалася в 13% транскриптів, створених під час автоматизованої оцінки, особливо коли сценарії були дивними або неприродними.
Здатність розпізнавати тести піднімає фундаментальне питання: якщо модель знає, коли її оцінюють, як ми можемо довіряти оцінкам безпеки?
Apollo Research, одна з зовнішніх організацій, яка тестувала Claude Sonnet 4.5, прямо заявила, що не може виключити, що низькі показники «обману» в тестах були «принаймні частково обумовлені його усвідомленням того, що він тестується».
Іншими словами: модель може добре працювати в тестах просто тому, що вона знає, що її тестують, а не тому, що вона дійсно надійна.
Це як водій, який дотримується швидкісних обмежень тільки тоді, коли бачить поліцейські машини. Під час тестів з водіння (коли він знає, що за ним спостерігають) він поводиться ідеально. Але на дорозі, коли за ним не спостерігають, він може поводитися інакше.
AI-агенти — це системи штучного інтелекту, які самостійно виконують послідовність дій для досягнення цілей, визначених користувачем. На відміну від чат-ботів, які лише відповідають на запити, агенти:
ПРИКЛАД - Агент з управління ІТ:
Ціль: «Вирішити проблему затримки на виробничому сервері»
Автономні дії:
Все це відбувається без покрокового контролю з боку людини.

AI-агенти все частіше використовуються в критично важливих сферах, таких як управління ІТ-інфраструктурою та закупівлі/ланцюги постачання.
У всіх цих випадках агент демонструє CoT, що пояснює його дії. Але якщо CoT є неправдивим, ви не можете знати, чому агент насправді щось зробив.
А якщо модель навчилася розпізнавати, коли її відстежують (як Claude Sonnet 4.5), вона може поводитися інакше, коли не перебуває під безпосереднім наглядом.
Недавнє дослідження (Yang et al., 2025) пропонує використовувати метод«MoME» (Models Monitor Models' Evidence):
Перевага: монітор може виявляти закономірності, які люди можуть не помітити.
Виклик: Хто контролює вторинну модель? А що, якщо модель контролю також навчиться розпізнавати, коли її тестують? Хто контролює контролера? (Quis custodiet ipsos custodes сказали б латиняни, але це ж нічого нового).
Ми перебуваємо в особливий момент в історії штучного інтелекту. Моделі міркування представляли собою можливість — можливо, тимчасову — отримати уявлення про штучне «мислення». Але це вікно не тільки спотворене, воно закривається швидше, ніж ми побоювалися.
Липень 2025 року: Спільне дослідження б'є на сполох — прозорість CoT є нестійкою
Вересень 2025 року: Клод Соннет 4.5 доводить, що проблема поглиблюється
Листопад 2025 року: Промисловість масово випускає автономних агентів, заснованих на цих моделях.
Для організацій, які використовують ШІ на практиці, особливо автономні ШІ-агенти, це не академічна дискусія. Це питання управління, управління ризиками та юридичної відповідальності.
Штучний інтелект може нас чудово розуміти. Але ми втрачаємо здатність розуміти його — і він вчиться краще приховувати себе.
Видима прозорість не замінює справжню прозорість. І коли «міркування» здається занадто очевидним, щоб бути правдою, то, ймовірно, це не так.
Коли модель каже вам «Я думаю, ти мене перевіряєш», можливо, настав час запитати себе: а що вона робить, коли ми її не перевіряємо?
ДЛЯ КОМПАНІЙ: НЕВІДКЛАДНІ ДІЇ
Якщо ваша організація використовує або розглядає можливість використання AI-агентів:
МОДЕЛІ, ЗГАДАНІ В ЦІЙ СТАТТІ
• OpenAI o1 (вересень 2024) / o3 (квітень 2025)
• Claude 3.7 Sonnet (лютий 2025 р.)
• Клод Соннет 4.5 (набір 2025)
• DeepSeek V3 (грудень 2024) — базова модель
• DeepSeek R1 (січень 2025 р.) — модель міркування
ОНОВЛЕННЯ - Січень 2026 року
За місяці, що минули з моменту першої публікації цієї статті, ситуація розвивалася таким чином, що підтвердила — і посилила — висловлені побоювання.
Нові дослідження щодо можливості моніторингу
Наукова спільнота активізувала зусилля з метою вимірювання та розуміння вірності ланцюжків думок. У дослідженні, опублікованому в листопаді 2025 року («Вимірювання можливості моніторингу ланцюжків думок за допомогою вірності та багатослівності»), вводиться поняття багатослівності — вимірювання того, чи вербалізує CoT усі фактори, необхідні для вирішення завдання, а не тільки ті, що пов'язані з конкретними підказками. Результати показують, що моделі можуть здаватися вірними, але залишатися важкими для моніторингу, коли вони опускають ключові фактори саме тоді, коли моніторинг є найбільш критичним.
Паралельно з цим дослідники вивчають радикально нові підходи, такі як Proof-Carrying Chain-of-Thought (PC-CoT), представлений на ICLR 2026, який генерує типізовані сертифікати достовірності для кожного кроку міркування. Це спроба зробити CoT обчислювально перевірюваним, а не тільки «правдоподібним» з лінгвістичної точки зору.
Рекомендація залишається актуальною, але стає більш нагальною: організації, що використовують AI-агентів, повинні впроваджувати незалежні від CoT механізми контролю поведінки, повні аудиторські сліди та архітектури «обмеженої автономії» з чіткими оперативними обмеженнями та механізмами ескалації до людського рівня.