Чому? Нова наука про причинно-наслідковий зв’язок
Джерело: Kyivstar Business HUB
Ми часто чуємо фразу «Кореляція — це не причинно-наслідковий зв’язок». Але табу, колись накладене статистикою на розмови про каузальність, поступово зникає, і не в останню чергу завдяки революції причинності. У чому ж полягає сутність нової науки? Чому великі дані не можуть відповісти на всі запитання і як навчитися шукати на них відповіді?
Рейтинги:
- Одна з найкращих наукових книг 2018 року за версією Science Friday
- Видання рекомендує Румман Чоудхурі (Rumman Chowdhury), глава відділу штучного інтелекту компанії Accenture
- The New York Times вважає, що ця книга допоможе зрозуміти, для чого корисні великі дані, а для чого — ні
Книга «The Book of Why: The New Science of Cause and Effect» («Чому? Нова наука про причинно-наслідковий зв’язок») розповідає про нову науку, яка змінила спосіб, у який ми відрізняємо факти від вигадки. Ця наука впливає не тільки на повсякденне життя людей, а також на різні сфери, починаючи від створення нових ліків і закінчуючи економічними питаннями або глобальним потеплінням. Незважаючи на те, що спектр проблемних зон достатньо широкий, ця наука дозволяє розглядати їх уніфіковано, що здавалося неможливим ще 20 років тому. Автори, Джуда Перл (Judea Pearl) і Дана Маккeнзі (Dana Mackenzie), називають цю науку «причинний умовивід» (causal inference).
Десятки тисяч років тому люди почали розуміти, що деякі речі стають причиною інших подій, і якщо вплинути на причину, то зміниться й наслідок. Завдяки цьому відкриттю виникли організовані спільноти, міста, а також цивілізація, яка спирається на науку і технології. Сталося це завдяки запитанню: «Чому?»
Причинний умовивід ґрунтується на тому ж запитанні. Ця наука cпирається на тезу: людський мозок — найдосконаліший інструмент для управління причинами та наслідками. Він зберігає неймовірний обсяг каузального знання, яке за умови наявності підтверджених даних здатне допомогти нам знайти відповіді на найскладніші питання сучасності.
До того ж, автори вважають, що якщо ми зрозуміємо логіку каузального мислення, то зможемо відтворити її на комп’ютері та винайти штучного вченого. Цей робот відкриватиме невідомі досі феномени, шукатиме пояснення поточним науковим дилемам, розроблятиме нові експерименти та постійно витягатиме нові каузальні знання з навколишнього середовища.
Однак це станеться ще не сьогодні, у той час як нова наука вже зараз змінює мислення вчених і впливає на наші життя. Зокрема, вона допомагає шукати відповіді на такі запитання:
- Наскільки ефективним є певний засіб у профілактиці захворювання?
- Що стало причиною зростання продажу: новий закон або наша рекламна кампанія?
- Чи варто мені змінювати роботу?
В усіх цих пунктах є дещо спільне: причинно-наслідкові зв’язки. Наш світ сповнений подібних запитань і потребує відповідей, але до виділення причинного умовиводу в окремий напрямок процес пошуку рішень був дуже складним.
Чому автори називають причинний умовивід новою наукою, якщо Вергілій у 29 році до н.е. казав: «Щасливий той, хто зміг зрозуміти причини речей?». Найскладнішою перешкодою вони вважають величезний розрив між словником, яким ми користуємося, ставлячи каузальні запитання, і традиційним науковим словником, за допомогою якого формулюються теорії.
Простий приклад: показання барометра B = kp, де k — коефіцієнт пропорційності, а Р — атмосферний тиск. Правила алгебри дозволяють переписати це рівняння так: P = B/k, k = B/p, B − kp = 0. Жодна з літер B, k або P не має пріоритету перед іншими. Тоді як ми можемо бути впевнені, що цей тиск впливає на показання барометра, а не навпаки? І як ми можемо описати науковою мовою всі ті причинно-наслідкові зв’язки, які спостерігаємо навколо?
Статистика та причинність ˅
Наукові інструменти були від самого початку розроблені для задоволення потреб учених. До певного моменту цього було достатньо. Але наукова допитливість штовхала вчених уперед у пошуках відповідей на каузальні запитання в різних сферах, наприклад у законодавстві, бізнесі, медицині, формуванні політик. І виявилося, що для цього інструментів уже недостатньо.
Таке неодноразово траплялося в історії людства. Наприклад, ще 400 років тому люди не страждали через те, що не вміють управляти невизначеністю. Але після винаходу нових азартних ігор наука зацікавилася напрямком, який пізніше отримав назву теорії ймовірності. І лише коли страховим компаніям потрібні були точні оцінки тривалості життя, математики стали розраховувати очікувану величину цього показника.
Потреба в теорії причинності виникла приблизно тоді ж, коли з’явилася статистика. Насправді сучасна статистика народилася з каузальних запитань про спадковість, які ставили Карл Пірсон і Френсіс Гальтон, та їхніх спроб знайти відповідь, досліджуючи дані різних поколінь. На жаль, вони зазнали невдачі, але замість того щоб зупинитися і запитати: «Чому?», вони стали розвивати статистику, вільну від причинності.
Цей момент став критичним в історії науки. З’явилася можливість забезпечити каузальні запитання правильним словником, однак вона була втрачена. Зрештою, створення «мови причинності» було відкладено більш ніж на 50 років. А разом із тим було накладено заборону на розробку інструментів, методів і принципів, які мають відношення до причинно-наслідкових зв’язків.
Із цією забороною знайомі всі, хто вивчав основи статистики. Кожен студент повинен запам’ятати раз і назавжди: кореляція не означає причинності. Звичайно, для цього є розумна підстава, адже якщо півень кукурікає перед світанком, це не означає, що без його кукурікання сонце не зійде.
Однак проблема полягає в тому, що, хоча статистика й говорить, що причинність не дорівнює кореляції, вона не пояснює, що ж таке причинність. Часто студентам взагалі забороняють казати про те, що Х — причина Y, а тільки про те, що Х и Y пов’язані між собою. Внаслідок цього статистика сфокусувалася переважно на зборі даних, але не на їх інтерпретації. Вважалося, що всі відповіді можна знайти в даних, і більшого шукати не слід.
Відгомін такого підходу чутен донині. Ми живемо в епоху, коли вважається: великі дані — ключ до вирішення всіх проблем людства. Курси з data science (наука про дані) користуються величезною популярністю в університетах, а кар’єра аналітика даних стає дедалі прибутковішою. І тут криється небезпека. Автори пишуть: самі по собі дані надзвичайно дурні. Зібрана інформація може розповісти вам, що люди, які вживають ліки, одужують швидше за тих, хто цього не робив, однак дані не розкажуть, чому так відбулося. Але ж причина може виявитися будь-якою, у тому числі такою, яка взагалі виключить ліки з рівняння.
Ми живемо в епоху, коли вважається: великі дані — ключ до вирішення всіх проблем людства
З кожним днем ми дедалі частіше стикаємося із прикладами з науки або бізнесу, які доводять: лише даних недостатньо. Тому останні 30 років теорія причинності стала розвиватися швидкими темпами. Століття тому питання про те, чи можуть сигарети стати причиною проблем зі здоров’ям, уважалося б ненауковим. 20 років тому запитати фахівця зі статистики, чи аспірин допоміг упоратися з головним болем, означало те саме, що поцікавитися, чи вірить він у вуду. Однак сьогодні соціологи, IT-фахівці та навіть деякі економісти регулярно ставлять подібні запитання. Автори називають таку трансформацію каузальною революцією.
П’ять основних думок:
- Нова наука, що змінила спосіб, у який ми відрізняємо факти від вигадки, називається причинним умовиводом.
- Якщо ми зрозуміємо логіку каузального мислення, то зможемо відтворити її на комп’ютері та винайти штучного вченого.
- Сучасна статистика народилася з каузальних запитань про спадковість, які ставили Карл Пірсон і Френсіс Гальтон. Вони зазнали невдачі та почали розбудовувати статистику, вільну від причинності. Вона сфокусувалася переважно на зборі даних, але не на їх інтерпретації.
- З кожним днем ми дедалі частіше стикаємося з прикладами, які доводять: одних даних недостатньо. Тому останні 30 років теорія причинності стала розвиватися швидкими темпами.
- Справжній ШІ повинен опанувати всі щаблі сходів причинності: асоціацію, інтервенцію та контрфакти. Сьогодні програми машинного навчання, як і 30 років тому, оперують практично повністю на асоціативному рівні.
Варто замислитися:
- Чи вірите ви у розумний ШІ?
- Де ви надмірно покладаєтеся на дані?
- Де у вашому бізнесі потрібне прогнозування і як воно здійснюється?
Варто зробити:
- Частіше запитувати себе: «Чому?»
- Пошукати навколо приклади, які підтверджують: одних даних недостатньо.
- Навчитися будувати каузальні діаграми.
|