Винятки: де наука про дані зустрічається з історіями успіху
Наука про дані перевернула парадигму з ніг на голову: викиди більше не є "помилками, які потрібно усунути", а цінною інформацією, яку потрібно зрозуміти. Один викид може повністю спотворити модель лінійної регресії - змінити нахил з 2 до 10, але його усунення може означати втрату найважливішого сигналу в наборі даних. Машинне навчання представляє складні інструменти: Isolation Forest ізолює викиди шляхом побудови випадкових дерев рішень, Local Outlier Factor аналізує локальну щільність, Autoencoders реконструює нормальні дані і повідомляє про те, що вони не можуть відтворити. Існують глобальні викиди (температура -10°C в тропіках), контекстуальні викиди (витрати 1000 євро в бідному районі), колективні викиди (синхронізовані сплески трафіку в мережі, що вказують на атаку). Паралельно з Гладуеллом: "правило 10 000 годин" оскаржується - Пол Маккартні сказав: "Багато гуртів провели 10 000 годин у Гамбурзі без успіху, теорія не є безпомилковою". Азійський математичний успіх є не генетичним, а культурним: китайська система числення більш інтуїтивна, вирощування рису потребує постійного вдосконалення на відміну від територіальної експансії західного сільського господарства. Реальні застосування: британські банки відшкодовують 18% потенційних збитків завдяки виявленню аномалій у реальному часі, виробництво виявляє мікроскопічні дефекти, які не помічає людина, охорона здоров'я перевіряє дані клінічних випробувань з чутливістю виявлення аномалій понад 85%. Останній урок: оскільки наука про дані переходить від усунення відхилень до їх розуміння, ми повинні розглядати нестандартні кар'єри не як аномалії, які потрібно виправляти, а як цінні траєкторії, які потрібно вивчати.