Осторожно: статистика
Рис. Р. Валиханова
Неслучайные выборки
В идеальном опросе предполагается, что опрашиваемые люди являются случайной выборкой из популяции, о которой мы хотим получить какую-либо информацию. Если выборка действительно является случайной, то статистические оценки, полученные в данной выборке, можно распространить на население в целом, рассчитав доверительные интервалы для этих оценок.
На самом деле в социальных науках практически не бывает случайных выборок. В опросах, которые проводятся методом личного интервью, выборка чаще всего строится следующим образом. Сначала отбирается несколько регионов, в которых будет проводиться опрос. Например, общероссийские опросы почти всегда включают Москву и Петербург и почти никогда — республики Северного Кавказа и районы Крайнего Севера. Внутри отобранных регионов выборка делится на две: городскую и сельскую. В каждой из этих подвыборок в свою очередь отбираются городские районы и села. Для этих отобранных участков обычно имеется список домохозяйств, и внутри этих участков домохозяйства, действительно, отбираются для опроса случайным образом.
Из опросов обычно исключается институционализированное население (заключенные, военнослужащие, жители домов престарелых и т.д.). Кроме того, понятно, что далеко не во всех домо-хозяйствах, отобранных в результате описанной процедуры, действительно удается провести опрос. В некоторые дома интервьюерам не удается попасть, в других никого не удается застать, в третьих люди отказываются отвечать на вопросы. Если доля людей, отобранных для опроса и ответивших на вопросы (response rate), в итоге превышает 50%, это считается хорошим результатом.
Случайная выборка остается «золотым стандартом», на который ориентируются организаторы опросов.
Понятно, что такие выборки можно назвать случайными только с большими ограничениями. Тем не менее, с известной долей условности мы применяем к ним статистические методы, разработанные для случайных выборок. Случайная выборка остается «золотым стандартом», на который ориентируются организаторы опросов. В общем и целом оценки, полученные на таких выборках, не очень сильно отличаются от тех, которые мы получили бы, опросив все население в целом. В России подобные опросы, построенные на выборках, приближенных к случайным, проводят многие организации, например ФОМ, «Левада-центр», ВЦИОМ и др.
Другое дело — опросы, которые изначально не ориентируются на «золотой стандарт» случайной выборки. Примером являются опросы в Интернете (например, опросы сайта Super-job.ru, на которые охотно ссылаются «Коммерсант», «Газета.ру», «Эхо Москвы» и другие издания). Организаторам таких опросов пришла в голову простая идея: зачем тратить деньги на организацию общероссийской выборки, найм интервьюеров по всей стране, проведение опросов, контроль за их качеством и т.д. Можно просто выложить опросник на одном из популярных интернет-сайтов, и в течение нескольких часов на вопросы ответят тысячи человек. Затем можно квотировать выборку по полу, возрасту, образованию в соответствии с данными последней переписи населения, посчитать результаты и экстраполировать их на население России.
Проблема таких опросов заключается в том, что оценки, полученные на их основе, систематически смещены в неизвестном нам направлении (если задача заключается в том, чтобы распространить их на население России в целом). Во-первых, аудитория сайтов, где проводятся такие опросы, существенно отличается по своим характеристикам от населения страны в целом (даже после статистического контроля по полу, возрасту и другим наблюдаемым характеристикам). Во-вторых, многие респонденты предпочитают не отвечать на вопросы, и доля заполнивших опросник довольно низка.
Это не значит, что онлайн-опросы бесполезны. Они удобны, когда необходимо сделать выводы о четко ограниченной группе людей, обладающих доступом в Интернет. Например, в тех случаях, когда задача заключается в том, чтобы опросить случайную выборку студентов университета или сотрудников большой компании. Кроме того, данные таких опросов часто используются в маркетинговых исследованиях, для которых не так важна репрезентативность. Однако выводы о населении России в целом на основании интернет-опросов делать нельзя.
Корреляция и причинно-следственная связь
Высокие люди больше зарабатывают. Люди, которые мало пьют, живут дольше и болеют реже, чем те, кто не пьет вообще. Образованные люди меньше курят. Журналисты, да и сами исследователи, часто интерпретируют эти результаты в терминах причинно-следственной связи, делая, например, вывод о том, что умеренное потребление алкоголя может быть полезно для здоровья. В большинстве случаев такая интерпретация результатов необоснованна.
Большинство подобных публикаций базируется на данных опросов, в которых респондентам задают вопросы об их социально-демографических характеристиках, здоровье, жизненных установках и ценностях и т.д. Затем исследователи выбирают одну зависимую переменную (например, состояние здоровья) и вычисляют коэффициент частной корреляции с какой-нибудь независимой переменной (например, потреблением алкоголя) после статистического контроля по ряду других переменных в той или иной форме регрессионного анализа.
В статистике хорошо известно, что с помощью такой исследовательской стратегии невозможно достоверно оценить причинно-следственные связи. Рассмотрим это на примере исследования, посвященного анализу связи между употреблением алкоголя и сердечнососудистыми заболеваниями, опубликованного в феврале 2011 г. в British Medical Journal [1]. Авторы этой статьи статистически проанализировали результаты проведенных ранее исследований и показали, что люди, умеренно употребляющие алкоголь, менее подвержены риску сердечно-сосудистых заболеваний, чем те, кто не пьет вообще.
Почему эти результаты нельзя однозначно интерпретировать в терминах причинно-следственной связи и утверждать, что умеренное потребление алкоголя положительно влияет на здоровье? (Надо отметить, что авторы оригинальной статьи в BMJ этого и не делают, в отличие от авторов последовавших за ней публикаций в прессе.) Во-первых, из-за возможности обратной причинно-следственной зависимости: больные люди часто отказываются от употребления алкоголя, и, таким образом, причину и следствие здесь следует поменять местами. Во-вторых, из-за возможного наличия «пропущенных переменных»: нельзя исключать, что исследователи не смогли проконтролировать какие-то характеристики, которые одновременно влияют и на употребление алкоголя, и на склонность к сердечнососудистым заболеваниям (например, генетическую предрасположенность).
Эти две проблемы в той или иной форме характерны для всех исследований, использующих неэкспериментальные данные. Многие статистики считают, что достоверно установить наличие и силу причинно-следственной связи между двумя переменными возможно только в результате случайного эксперимента.
В последние 20 лет в статистике и эконометрике активно развиваются квази-экспе-риментальные техники, позволяющие сделать вывод о причинно-следственных связях на основе естественных экспериментов (регрессия с инструментальными переменными, дизайн регрессионной прерывности, мэтчинг). Эти техники требуют множества допущений, которые часто трудно удовлетворить. В целом идентификация причинно-следственных связей в социальных науках остается трудной и не всегда решаемой задачей.
Статистическая значимость и сила связи
Часто при интерпретации результатов статистических исследований как исследователи, так и журналисты ориентируются исключительно на показатель статистической значимости. Несомненно, это важный критерий, но он должен рассматриваться наряду с другим показателем — размером эффекта.
Статистическая значимость определенного эффекта в выборке (на традиционном для социальных наук 5%-ном уровне) означает, что этот эффект будет наблюдаться в среднем не менее чем в 95 из каждых 100 случайных выборок из той же популяции. Таким образом, критерий статистической значимости отвечает на вопрос о вероятном наличии или отсутствии эффекта. При этом он ничего не говорит о его размере или научной и практической важности.
В очень больших выборках тривиальные по своему размеру эффекты могут оказаться статистически значимыми. Например, предположим, что мы опросили десятки тысяч блондинов и брюнетов и обнаружили, что блондины зарабатывают на 20 руб. в месяц больше. Даже если эта разница статистически значима, едва ли она имеет принципиальное значение.
С другой стороны, предположим, что в выборку попали 10 женщин и 10 мужчин, и разница в средней зарплате между этими двумя группами составила 1000 руб. В силу небольшой выборки этот эффект может оказаться статистически не значимым, однако его практическое значение весьма велико. Если бы размер выборки удалось увеличить, разница между мужчинами и женщинами, скорее всего, оказалась бы статистически значимой.
В социальных науках упор часто делается на поиски статистически значимых, а не важных с содержательной точки зрения эффектов. В книге Стивена Зилиака и Дейрде Маклоски «Культ статистической значимости» [2] приводится множество примеров того, как этот стиль мышления проник в лучшие журналы по экономике и психологии. Это неверно: значимость важна, но размер эффекта всегда имеет значение.
Статистические методы в социальных науках бурно развиваются. Это объясняется большей доступностью данных (как полученных в результатах опросов и наблюдения, так и экспериментальных) и развитием вычислительных мощностей, позволяющих оценивать сложные статистические модели на больших массивах данных. Однако само по себе использование сложных моделей не гарантирует отсутствия в интерпретации результатов элементарных ошибок, три из которых описаны в этой статье.
1. Ronksley, P.E., et al. (2011). Association of alcohol consumption with selected cardiovascular diseases outcomes: a systematic review and meta-analysis. BMJ 342:d636 doi:10.1136/bmj.d636
2. Ziliak, S., McCloskey D. (2009). The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice and Lives. University of Michigan Press, 2009.
2011.04.27 13:01:45