
Системи штучного інтелекту, навчені за допомогою RLHF, систематично винагороджуються за створення результатів, які добре оцінюються середньостатистичним користувачем, що математично підштовхує їх до творчої посередності. У цій статті визначається «пастка B+», RLHF визнається структурним механізмом, а також пропонується структура Rebel AI, побудована на пошуку новизни, суперечливих агентах та метакогнітивному зворотньому зв'язку.