Что такое корреляция?

Что такое корреляция?

Помимо обобщения данных, статистика также может использоваться для выявления взаимосвязей между различными данными. Собрав два типа данных по каждому члену генеральной совокупности или выборки, я могу построить график их взаимной зависимости, используя диаграмму рассеяния.  Например, вот как выглядит диаграмма рассеяния со значениями роста и веса людей, занимающихся в тренажерном зале:
 
диаграмма рассеяния со значениями роста и веса людей, занимающихся в тренажерном зале
 
Как мы видим, общая тенденция состоит в том, что чем выше человек, тем больше он весит. Этого и следовало ожидать — высокорослые люди обычно больше низкорослых, хотя иногда эта закономерность нивелируется особенностями телосложения. 
 
Такую зависимость статистики называют сильной положительной корреляцией. Эта корреляция «сильна» в силу того, что ее график очень близок по форме к прямой линии, и «положительной» в силу того, что при увеличении значений одной переменной значения второй переменной тоже увеличиваются.
 
А вот пример слабой отрицательной корреляции:

пример слабой отрицательной корреляции
 
Эта корреляция «отрицательна» в силу того, что объем продаж термобелья снижается по мере роста температуры. Она «слабая» в силу того, что, указывая на наличие тенденции, точки этого графика все же далеко отстоят от показанной прямой линии.  Это так называемая « линия наилучшего соответствия» — линия, расположенная как можно ближе к максимально возможному количеству точек. 
 
Англичанин  Фрэнсис Гальтон (1822–1911) отличился не только тем, что ввел в обиход стандартное отклонение, но и тем, что в числе первых рассмотрел корреляцию и предпринял попытки к ее измерению. Он был одержим идеей точных измерений и сбора данных, и особенно сильно интересовался антропометрией, поскольку был неизменным приверженцем евгеники — то есть считал, что людей нужно подвергать избирательной селекции, чтобы сделать их более здоровыми и умными, и искоренить физические недостатки и другие «нежелательные» черты. 
 
После Гальтона изучение корреляции продолжил его соотечественник  Карл Пирсон (1857–1936), который предложил математический способ измерения корреляции (сводящийся к использованию так называемого коэффициента корреляции Пирсона), а также способ построения идеальной линии наилучшего соответствия.
 
Коэффициент корреляции Пирсона может изменяться от –1 (идеальная отрицательная корреляция) до 1 (идеальная положительная корреляция), с серединой в 0 (полное отсутствие корреляции).
 
Коэффициент Пирсона можно использовать только в том случае, когда диаграмма рассеяния представляет собой прямолинейную зависимость. Чарльзу Спирмену (1863–1945) удалось обойти это ограничение за счет упорядочения данных и выявления корреляции путем анализа рангов данных, а не самих числовых значений. Так появился коэффициент ранговой корреляции Спирмена, и после этого экзамены курса по географии GCSE Geography уже никогда не содержали повторяющиеся задания. Ниже показана диаграмма рассеяния данных, между которыми имеется нелинейная зависимость. Проранжировав данные и использовав в диаграмме ранги, мы получим более линейную зависимость, показанную на нижнем рисунке:
 
линейная зависимость
 
Корреляция - это не причинно-следственная связь!
 
Наличие корреляции между двумя явлениями еще не говорит о том, что одно явление порождает другое. Так, высокие люди весят больше, но если вы наберете лишний вес, это не сделает вас выше. 
 
высокие люди весят больше
 
Хотя существует корреляция между количеством проданного мороженого и количеством утонувших людей, это не значит, что вы рискуете утонуть из-за того, что съели мороженое — это жаркая погода заставляет людей есть больше мороженого и чаще купаться, что, к сожалению, ведет и к увеличению количества утонувших людей. На веб-сайте американца Тайлера Вигена  представлена прекрасная коллекция таких «ложных» корреляций, как он их называет. Мне особенно нравится пример, представленный слева.
 
В этом примере четко прослеживается видимое наличие корреляции, однако поставка урана на атомные электростанции совершенно очевидным образом не может влиять на присуждение степени доктора математических наук.

«Основой теологии является отсутствие разума и священный ужас наших предков перед картиной вселенной»

Франс Анатоль

Научный подход на Google Play

Файлы

Основы первой медицинской помощи

Партизанская война

Луна и радуга

Идеология партии будущего