«ChatGPT робить вас дурними», «Штучний інтелект шкодить мозку», «Дослідження MIT: штучний інтелект спричиняє когнітивний спад». Останніми місяцями такі тривожні заголовки домінували в загальних ЗМІ, підживлюючи безпідставні побоювання щодо використання штучного інтелекту в освіті та на роботі. Але що насправді говорить наука? Критичний аналіз літератури показує набагато складнішу і, що найголовніше, оптимістичнішу реальність.
Дослідження MIT Media Lab «Your Brain on ChatGPT» викликало хвилю панічних повідомлень у ЗМІ, часто заснованих на спотвореному тлумаченні результатів. Опубліковане у вигляді препринта (тобто не пройшло рецензування), дослідження охопило лише 54 учасники з Бостона, з яких лише 18 завершили ключову сесію.
Недостатня вибірка: з 54 учасниками дослідження не має достатньої статистичної сили, щоб зробити узагальнюючі висновки. Як визнають самі дослідники, «вибірка невелика» і «однорідна: люди, які проживають поблизу MIT, безумовно, не відображають розподіл населення у світі».
Проблемний експериментальний дизайн: учасники мали написати есе SAT за 20 хвилин — штучне обмеження, яке природно спонукає до копіювання та вставлення, а не до рефлексивної інтеграції. Цей дизайн «добре імітує природні обмеження реального життя», такі як «термін виконання — завтра» або «я б краще пограв у відеоігри», але не є педагогічно обґрунтованим використанням ШІ.
Змішування ефекту звикання: група «тільки мозок» продемонструвала поступове поліпшення результатів у перших трьох сесіях, просто звикнувши до завдання. Коли група AI повинна була писати без допомоги в четвертій сесії, вона виконувала завдання вперше, не маючи переваги від практики.
Поки ЗМІ зосереджувалися на тривожних результатах MIT, набагато більш ретельні дослідження давали кардинально інші результати.
Дослідження, проведене в Університеті науки і технологій імені Кваме Нкрума, охоплювало 125 студентів у рамках контрольованого рандомізованого дизайну протягом цілого семестру. Результати прямо суперечать висновкам MIT:
Критичне мислення: Студенти, які використовували ChatGPT, покращили свої результати з 28,4 до 39,2 балів (+38%), значно випередивши контрольну групу (з 24,9 до 30,6, +23%).
Креативне мислення: Ще більш драматичне зростання, з 57,2 до 92,0 балів (+61%) для групи ChatGPT, з поліпшеннями у всіх шести вимірюваних вимірах: сміливість, інноваційні дослідження, цікавість, самодисципліна, сумнів і гнучкість.
Рефлексивне мислення: істотне поліпшення з 35,1 до 56,6 балів (+61%), що свідчить про підвищення здатності до саморефлексії та метакогніції.
Ключові методологічні відмінності: У дослідженні в Гані використовувалися валідовані шкали (Cronbach α > 0,89), підтверджувальний факторний аналіз, ANCOVA-контроль для попередніх тестів і, що найважливіше, ChatGPT було інтегровано в реальний освітній контекст із відповідним педагогічним супроводом.
Найбільш ретельне дослідження, яке було проведено, охопило 758 консультантів Boston Consulting Group у рамках попередньо зареєстрованого та контрольованого експерименту. Результати були однозначними:
Як підкреслює Етан Молік, співавтор дослідження: «Консультанти, які використовували ChatGPT, значно перевершували тих, хто цього не робив. У всіх аспектах. У всіх аспектах, в яких ми вимірювали ефективність».
Систематичний огляд досліджень у галузі штучного інтелекту у вищій освіті виявив значні переваги:
Багатонаціональне дослідження, проведене серед 401 китайських студентів з використанням моделей структурних рівнянь, підтвердило, що «як штучний інтелект, так і соціальні медіа мають позитивний вплив на академічну успішність та психічне здоров'я».
Висвітлення дослідження MIT у ЗМІ є яскравим прикладом того, як сенсаційність може спотворити розуміння науки громадськістю.
Типовий заголовок: «Дослідження MIT доводить, що ChatGPT робить людей дурними»
Реальність: Попереднє дослідження без рецензування, в якому взяли участь 54 особи, виявило відмінності в нейронних зв'язках під час виконання штучних завдань.
Типовий заголовок: «Штучний інтелект шкодить мозку»
Реальність: ЕЕГ показує різні патерни активації, які можна інтерпретувати як нейронну ефективність, а не пошкодження.
Типовий заголовок: «ChatGPT спричиняє когнітивний спад»
Реальність: Дослідження з серйозними методологічними обмеженнями, яке суперечить більш ретельним дослідженням.
Головна дослідниця MIT Наталія Космина зізналася, що вставила в статтю «пастки», щоб LLM не змогли точно її резюмувати. За іронією долі, багато користувачів соціальних мереж потім саме LLM використовували для резюмування та поширення дослідження, мимоволі продемонструвавши практичну користь цих інструментів.
Серйозні дослідження в галузі штучного інтелекту в освіті не заперечують існування викликів, але розглядають їх у більш витонченому контексті. Концепція «зубчастої технологічної межі» з дослідження Гарвардського університету ілюструє, що штучний інтелект досягає успіху в деяких завданнях, тоді як в інших, на перший погляд схожих, може виникати проблема.
Час впровадження: Докази свідчать, що розвиток базових навичок перед впровадженням ШІ може максимізувати переваги. Як зазначається в самому дослідженні MIT, учасники «Brain-to-LLM продемонстрували кращу пам'ять та активацію потилично-тім'яної та префронтальної ділянок мозку».
Педагогічний дизайн: Дослідження в Гані демонструє важливість інтеграції ШІ з відповідним освітнім скелетом, добре розробленими підказками та чіткими навчальними цілями.
Значущий контекст: Використання ШІ в реальних освітніх контекстах, а не в штучних завданнях, дає кардинально різні результати.

Спотворене висвітлення в ЗМІ є не лише академічною проблемою — воно має реальні наслідки для впровадження потенційно корисних технологій.
Як визнає сама Косміна: «Те, що спонукало мене опублікувати це зараз, не чекаючи повного рецензування, — це те, що я боюся, що через 6–8 місяців якийсь політик вирішить: «Давайте зробимо дитячий садок GPT». Я вважаю, що це було б абсолютно негативним і шкідливим».
Ця заява свідчить про мотивацію адвокації, яка повинна викликати підозру щодо наукової нейтральності дослідження.
Дослідження, в якому взяли участь 28 698 інженерів-програмістів, показало, що лише 41% з них пробували використовувати інструменти ШІ, причому ще нижчий рівень використання спостерігався серед жінок (31%) та інженерів старше 40 років (39%). Алармістські заголовки сприяють поширенню таких упереджень, потенційно позбавляючи багатьох працівників доведених переваг ШІ.
Компанії, що займаються штучним інтелектом, повинні збалансувати ентузіазм щодо технології з чесним інформуванням про її обмеження. Результати серйозних досліджень свідчать про реальні переваги, коли штучний інтелект впроваджується продумано, але також про необхідність:
Замість того, щоб реагувати на негативні заголовки в ЗМІ, галузь штучного інтелекту повинна:
Історія дослідження MIT та його висвітлення в ЗМІ містить важливі уроки для всіх зацікавлених сторін в екосистемі ШІ.
Тиск публікувати результати, що мають «новинну цінність», не повинен ставити під загрозу методологічну строгість. Препринти можуть бути корисними для наукової дискусії, але вимагають ретельного інформування про їхні обмеження.
Громадськість заслуговує на точне висвітлення, яке розрізняє:
Майбутнє ШІ в освіті залежить від продуманих впроваджень, заснованих на надійних доказах, а не від реакцій на останні сенсаційні заголовки.
Поки в заголовках газет вирують суперечки, серйозні дослідження розкривають справжній потенціал ШІ в демократизації доступу до високоякісного навчання. Дослідження в Гані показує, що при правильному впровадженні ШІ може:
Питання полягає не в тому, чи змінить ШІ освіту, а в тому, як ми можемо відповідально керувати цією трансформацією. Відповідь лежить у суворій науці, а не в сенсаційних заголовках.
Джерела та література:
Щоб бути в курсі серйозних наукових досліджень у галузі штучного інтелекту (без сенсаційності), стежте за нашим корпоративним блогом і підпишіться на нашу newsletter.