Хибна кореляція

Хибна (уявна) кореляція (англ. spurious relationship) — це взаємозалежність (узгодженість або відповідність) між двома змінними, в основі якої лежить випадковість, а не причиново-наслідковий зв'язок.

Співвідношення кількості лелек та людської народжуваності: приклад хибної кореляції

Термін викликає непорозуміння, оскільки йдеться власне про уявну причинність. Проте існує не лише уявна, але й фактична кореляція (про розмежування цих понять див.: Кореляція та причиново-наслідковий зв'язок). У будь-якому випадку кореляція — це статистичне поняття, яке не передбачає причинно-наслідкового зв'язку.

Хибна кореляція розглядається у філософії як статистичний відповідник логічній хибі (Cum hoc ergo propter hoc).

Вона виникає, наприклад, під впливом прихованих змінних. Явище уявної кореляції було відоме ще з початку дослідження статистики, а сам термін «spurious correlation» був введений у 1954 році Гербертом А. Саймоном.

Приклад хибної кореляції

Відомим прикладом хибної кореляції є залежність між людською народжуваністю та кількістю пар лелек у різних регіонах Європи[1]. Хоча між цими двома величинами існує відповідність (тобто чим більше лелек гніздиться біля оселі, тим більше дітей з'являється на світ), проте немає певного причинно-наслідкового зв'язку (хибний висновок, що дітей приносить лелека). Кореляція між новонародженими та парами птахів пояснюється через той факт, що зазвичай лелеки селяться в сільській місцевості, де переважають багатодітні сім'ї. Цей приклад хибної кореляції навів Єжи Нейман (1952)[2]. Позначивши кількість жінок змінною , народжених дітей , лелек , можна розрахувати значення величин за формулами: і . Далі слід намалювати незалежно розподілені вибірки випадкових змінних і співвіднести показники і , після чого отримуємо хибну кореляцію через спільний знаменник.

В історії траплялись випадки, коли хибні кореляції використовувались зловмисницьки. Наприклад, відомо, що статистик Дарелл Хафф, який отримував фінансування від тютюнових компаній, використовував явище хибної кореляції для висміювання зв'язку між цигарками та хворобами. 22 березня 1965 року Хафф дав свідчення на слуханнях Конгресу США з маркування та реклами цигарок, у яких він звинуватив головного лікаря в допущенні у медичному звіті багатьох «помилок» та «хиб». Свої нападки Хафф доповнював кумедними ремарками та висміював помилкові кореляції, і однією з них була згадана вище кореляція між кількістю лелек та дітей. Його слова мали ефект, на який Хафф розраховував. Сенатор Нойбергер, який модерував слухання, був приголомшений зауваженнями Хаффа:

Ви дійсно думаєте, що між палінням та хворобою існує такий же самий випадковий зв'язок, як і зв'язок стосовно лелек…?[3]

Хибна (уявна) регресія

Хибна (уявна) регресія — це окремий випадок регресії, в якому можна визначити статистично значущий зв'язок між змінною та , який не можна логічно обґрунтувати. Такі явища зумовлені спільною тенденцією у релевантних змінних. Ознакою уявної регресії є високий коефіцієнт детермінації і майже нульовий коефіцієнт Дарбіна — Уотсона (висока позитивна автокореляція першого порядку). Крім того, докази хибної регресії надає тест Дікі-Фуллера, визначаючи часовий ряд як нестаціонарний.

Лінія регресії між двома незалежними AR (1)-процесами з коренем з одиниці, включаючи -статистику.

Див. також

Примітки

Джерела

Загальна література

  • Гюнтер Бамберг, Франц Баур, Міхаель Крапп: Statistik. 13. видання. Oldenbourg Wissenschaftsverlag, 2007, ISBN 978-3-486-58188-1.
  • Удо Келле: Die Integration qualitativer und quantitativer Methoden in der empirischen Sozialforschung: theoretische Grundlagen und methodologische Konzepte.VS Verlag, 2007, ISBN 978-3-531-15312-4, С. 203.
  • Proctor, Robert N. (2012). Golden Holocaust: Origins of the Cigarette Catastrophe and the Case for Abolition. Berkeley: University of California Press. ISBN 9780520270169

Оригінальні роботи

  • Герберт А. Саймон:Spurious correlation: a causal interpretation. In: Journal of the American Statistical Association. Vol. 49, 1954, S. 467—479, doi:10.1080/01621459.1954.10483515 JSTOR 2281124.
  • Клайв У. Дж. Грейнджер, Пол Ньюболд: Spurious regressions in econometrics. In: Journal of Econometrics. Nr. 2, 1974, S. 111—120, doi:10.1016/0304-4076(74)90034-7.

Посилання