Осторожно: статистика

Газеты, журналы и интернет-сайты часто публикуют результаты исследований, основанных на статистическом анализе данных опросов населения. Часто в таких публикациях содержатся существенные ошибки в интерпретации результатов. В своей статье Алексей Бессуднов, научный сотрудник Европейского университета во Флоренции, рассматривает три наиболее распространенные ошибки.


Рис. Р. Валиханова

Неслучайные выборки

В идеальном опросе предполагается, что опрашиваемые люди являются случайной выборкой из популяции, о которой мы хотим получить какую-либо информацию. Если выборка действительно является случайной, то статистические оценки, полученные в данной выборке, можно распространить на население в целом, рассчитав доверительные интервалы для этих оценок.

На самом деле в социальных науках практически не бывает случайных выборок. В опросах, которые проводятся методом личного интервью, выборка чаще всего строится следующим образом. Сначала отбирается несколько регионов, в которых будет проводиться опрос. Например, общероссийские опросы почти всегда включают Москву и Петербург и почти никогда — республики Северного Кавказа и районы Крайнего Севера. Внутри отобранных регионов выборка делится на две: городскую и сельскую. В каждой из этих подвыборок в свою очередь отбираются городские районы и села. Для этих отобранных участков обычно имеется список домохозяйств, и внутри этих участков домохозяйства, действительно, отбираются для опроса случайным образом.

Из опросов обычно исключается институционализированное население (заключенные, военнослужащие, жители домов престарелых и т.д.). Кроме того, понятно, что далеко не во всех домо-хозяйствах, отобранных в результате описанной процедуры, действительно удается провести опрос. В некоторые дома интервьюерам не удается попасть, в других никого не удается застать, в третьих люди отказываются отвечать на вопросы. Если доля людей, отобранных для опроса и ответивших на вопросы (response rate), в итоге превышает 50%, это считается хорошим результатом.

Случайная выборка остается «золотым стандартом», на который ориентируются организаторы опросов.

Понятно, что такие выборки можно назвать случайными только с большими ограничениями. Тем не менее, с известной долей условности мы применяем к ним статистические методы, разработанные для случайных выборок. Случайная выборка остается «золотым стандартом», на который ориентируются организаторы опросов. В общем и целом оценки, полученные на таких выборках, не очень сильно отличаются от тех, которые мы получили бы, опросив все население в целом. В России подобные опросы, построенные на выборках, приближенных к случайным, проводят многие организации, например ФОМ, «Левада-центр», ВЦИОМ и др.

Другое дело — опросы, которые изначально не ориентируются на «золотой стандарт» случайной выборки. Примером являются опросы в Интернете (например, опросы сайта Super-job.ru, на которые охотно ссылаются «Коммерсант», «Газета.ру», «Эхо Москвы» и другие издания). Организаторам таких опросов пришла в голову простая идея: зачем тратить деньги на организацию общероссийской выборки, найм интервьюеров по всей стране, проведение опросов, контроль за их качеством и т.д. Можно просто выложить опросник на одном из популярных интернет-сайтов, и в течение нескольких часов на вопросы ответят тысячи человек. Затем можно квотировать выборку по полу, возрасту, образованию в соответствии с данными последней переписи населения, посчитать результаты и экстраполировать их на население России.

Проблема таких опросов заключается в том, что оценки, полученные на их основе, систематически смещены в неизвестном нам направлении (если задача заключается в том, чтобы распространить их на население России в целом). Во-первых, аудитория сайтов, где проводятся такие опросы, существенно отличается по своим характеристикам от населения страны в целом (даже после статистического контроля по полу, возрасту и другим наблюдаемым характеристикам). Во-вторых, многие респонденты предпочитают не отвечать на вопросы, и доля заполнивших опросник довольно низка.

Это не значит, что онлайн-опросы бесполезны. Они удобны, когда необходимо сделать выводы о четко ограниченной группе людей, обладающих доступом в Интернет. Например, в тех случаях, когда задача заключается в том, чтобы опросить случайную выборку студентов университета или сотрудников большой компании. Кроме того, данные таких опросов часто используются в маркетинговых исследованиях, для которых не так важна репрезентативность. Однако выводы о населении России в целом на основании интернет-опросов делать нельзя.

Корреляция и причинно-следственная связь

Высокие люди больше зарабатывают. Люди, которые мало пьют, живут дольше и болеют реже, чем те, кто не пьет вообще. Образованные люди меньше курят. Журналисты, да и сами исследователи, часто интерпретируют эти результаты в терминах причинно-следственной связи, делая, например, вывод о том, что умеренное потребление алкоголя может быть полезно для здоровья. В большинстве случаев такая интерпретация результатов необоснованна.

Большинство подобных публикаций базируется на данных опросов, в которых респондентам задают вопросы об их социально-демографических характеристиках, здоровье, жизненных установках и ценностях и т.д. Затем исследователи выбирают одну зависимую переменную (например, состояние здоровья) и вычисляют коэффициент частной корреляции с какой-нибудь независимой переменной (например, потреблением алкоголя) после статистического контроля по ряду других переменных в той или иной форме регрессионного анализа.

В статистике хорошо известно, что с помощью такой исследовательской стратегии невозможно достоверно оценить причинно-следственные связи. Рассмотрим это на примере исследования, посвященного анализу связи между употреблением алкоголя и сердечнососудистыми заболеваниями, опубликованного в феврале 2011 г. в British Medical Journal [1]. Авторы этой статьи статистически проанализировали результаты проведенных ранее исследований и показали, что люди, умеренно употребляющие алкоголь, менее подвержены риску сердечно-сосудистых заболеваний, чем те, кто не пьет вообще.

Почему эти результаты нельзя однозначно интерпретировать в терминах причинно-следственной связи и утверждать, что умеренное потребление алкоголя положительно влияет на здоровье? (Надо отметить, что авторы оригинальной статьи в BMJ этого и не делают, в отличие от авторов последовавших за ней публикаций в прессе.) Во-первых, из-за возможности обратной причинно-следственной зависимости: больные люди часто отказываются от употребления алкоголя, и, таким образом, причину и следствие здесь следует поменять местами. Во-вторых, из-за возможного наличия «пропущенных переменных»: нельзя исключать, что исследователи не смогли проконтролировать какие-то характеристики, которые одновременно влияют и на употребление алкоголя, и на склонность к сердечнососудистым заболеваниям (например, генетическую предрасположенность).

Эти две проблемы в той или иной форме характерны для всех исследований, использующих неэкспериментальные данные. Многие статистики считают, что достоверно установить наличие и силу причинно-следственной связи между двумя переменными возможно только в результате случайного эксперимента.

В последние 20 лет в статистике и эконометрике активно развиваются квази-экспе-риментальные техники, позволяющие сделать вывод о причинно-следственных связях на основе естественных экспериментов (регрессия с инструментальными переменными, дизайн регрессионной прерывности, мэтчинг). Эти техники требуют множества допущений, которые часто трудно удовлетворить. В целом идентификация причинно-следственных связей в социальных науках остается трудной и не всегда решаемой задачей.

Статистическая значимость и сила связи

Часто при интерпретации результатов статистических исследований как исследователи, так и журналисты ориентируются исключительно на показатель статистической значимости. Несомненно, это важный критерий, но он должен рассматриваться наряду с другим показателем — размером эффекта.

Статистическая значимость определенного эффекта в выборке (на традиционном для социальных наук 5%-ном уровне) означает, что этот эффект будет наблюдаться в среднем не менее чем в 95 из каждых 100 случайных выборок из той же популяции. Таким образом, критерий статистической значимости отвечает на вопрос о вероятном наличии или отсутствии эффекта. При этом он ничего не говорит о его размере или научной и практической важности.

В очень больших выборках тривиальные по своему размеру эффекты могут оказаться статистически значимыми. Например, предположим, что мы опросили десятки тысяч блондинов и брюнетов и обнаружили, что блондины зарабатывают на 20 руб. в месяц больше. Даже если эта разница статистически значима, едва ли она имеет принципиальное значение.

С другой стороны, предположим, что в выборку попали 10 женщин и 10 мужчин, и разница в средней зарплате между этими двумя группами составила 1000 руб. В силу небольшой выборки этот эффект может оказаться статистически не значимым, однако его практическое значение весьма велико. Если бы размер выборки удалось увеличить, разница между мужчинами и женщинами, скорее всего, оказалась бы статистически значимой.

В социальных науках упор часто делается на поиски статистически значимых, а не важных с содержательной точки зрения эффектов. В книге Стивена Зилиака и Дейрде Маклоски «Культ статистической значимости» [2] приводится множество примеров того, как этот стиль мышления проник в лучшие журналы по экономике и психологии. Это неверно: значимость важна, но размер эффекта всегда имеет значение.

Статистические методы в социальных науках бурно развиваются. Это объясняется большей доступностью данных (как полученных в результатах опросов и наблюдения, так и экспериментальных) и развитием вычислительных мощностей, позволяющих оценивать сложные статистические модели на больших массивах данных. Однако само по себе использование сложных моделей не гарантирует отсутствия в интерпретации результатов элементарных ошибок, три из которых описаны в этой статье.

1. Ronksley, P.E., et al. (2011). Association of alcohol consumption with selected cardiovascular diseases outcomes: a systematic review and meta-analysis. BMJ 342:d636 doi:10.1136/bmj.d636

2. Ziliak, S., McCloskey D. (2009). The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice and Lives. University of Michigan Press, 2009.

Источник

«Один человек не может доказать что бога не существует, но наука делает бога ненужным»

Стивен Хокинг

Файлы

Фейнмановские лекции по физике

Общая теория роста человечества

Слепой часовщик

Живые организмы - спутники человека