Что такое корреляция?

Помимо обобщения данных, статистика также может использоваться для выявления взаимосвязей между различными данными. Собрав два типа данных по каждому члену генеральной совокупности или выборки, я могу построить график их взаимной зависимости, используя диаграмму рассеяния. Например, вот как выглядит диаграмма рассеяния со значениями роста и веса людей, занимающихся в тренажерном зале:

Как мы видим, общая тенденция состоит в том, что чем выше человек, тем больше он весит. Этого и следовало ожидать — высокорослые люди обычно больше низкорослых, хотя иногда эта закономерность нивелируется особенностями телосложения.
Такую зависимость статистики называют сильной положительной корреляцией. Эта корреляция «сильна» в силу того, что ее график очень близок по форме к прямой линии, и «положительной» в силу того, что при увеличении значений одной переменной значения второй переменной тоже увеличиваются.
А вот пример слабой отрицательной корреляции:

Эта корреляция «отрицательна» в силу того, что объем продаж термобелья снижается по мере роста температуры. Она «слабая» в силу того, что, указывая на наличие тенденции, точки этого графика все же далеко отстоят от показанной прямой линии. Это так называемая « линия наилучшего соответствия» — линия, расположенная как можно ближе к максимально возможному количеству точек.
Англичанин Фрэнсис Гальтон (1822–1911) отличился не только тем, что ввел в обиход стандартное отклонение, но и тем, что в числе первых рассмотрел корреляцию и предпринял попытки к ее измерению. Он был одержим идеей точных измерений и сбора данных, и особенно сильно интересовался антропометрией, поскольку был неизменным приверженцем евгеники — то есть считал, что людей нужно подвергать избирательной селекции, чтобы сделать их более здоровыми и умными, и искоренить физические недостатки и другие «нежелательные» черты.
После Гальтона изучение корреляции продолжил его соотечественник Карл Пирсон (1857–1936), который предложил математический способ измерения корреляции (сводящийся к использованию так называемого коэффициента корреляции Пирсона), а также способ построения идеальной линии наилучшего соответствия.
Коэффициент корреляции Пирсона может изменяться от –1 (идеальная отрицательная корреляция) до 1 (идеальная положительная корреляция), с серединой в 0 (полное отсутствие корреляции).
Коэффициент Пирсона можно использовать только в том случае, когда диаграмма рассеяния представляет собой прямолинейную зависимость. Чарльзу Спирмену (1863–1945) удалось обойти это ограничение за счет упорядочения данных и выявления корреляции путем анализа рангов данных, а не самих числовых значений. Так появился коэффициент ранговой корреляции Спирмена, и после этого экзамены курса по географии GCSE Geography уже никогда не содержали повторяющиеся задания. Ниже показана диаграмма рассеяния данных, между которыми имеется нелинейная зависимость. Проранжировав данные и использовав в диаграмме ранги, мы получим более линейную зависимость, показанную на нижнем рисунке:

Корреляция - это не причинно-следственная связь!
Наличие корреляции между двумя явлениями еще не говорит о том, что одно явление порождает другое. Так, высокие люди весят больше, но если вы наберете лишний вес, это не сделает вас выше.

Хотя существует корреляция между количеством проданного мороженого и количеством утонувших людей, это не значит, что вы рискуете утонуть из-за того, что съели мороженое — это жаркая погода заставляет людей есть больше мороженого и чаще купаться, что, к сожалению, ведет и к увеличению количества утонувших людей. На веб-сайте американца Тайлера Вигена представлена прекрасная коллекция таких «ложных» корреляций, как он их называет. Мне особенно нравится пример, представленный слева.
В этом примере четко прослеживается видимое наличие корреляции, однако поставка урана на атомные электростанции совершенно очевидным образом не может влиять на присуждение степени доктора математических наук.
2373
2020.05.19 18:16:54