Причина и следствие

Причина и следствие

Повышает ли поступление в университет риск развития опухоли мозга?
 
Эпидемиология изучает, как и почему возникают и распространяются заболевания, при этом скандинавские страны – мечта эпидемиолога. А все потому, что в них каждый человек имеет личный идентификационный номер, который используется при регистрации во всех сферах: здравоохранение, образование, налогообложение и прочие. Это позволяет исследователям комплексно изучать различные аспекты жизни людей, что невозможно сделать (и, наверное, не всегда целесообразно) в других государствах.
 
Одно масштабное исследование, проведенное более чем на 4 миллионах шведов и шведок, в рамках которого связывались сведения о налогообложении и здоровье за 18 лет, установило, что у людей с более высоким социально-экономическим положением чаще диагностировали опухоль головного мозга. Это было одно из тех солидных, но весьма неинтересных исследований, которые обычно не привлекают особого внимания, поэтому специалист по связям с общественностью посчитал, что в пресс-релизе гораздо лучше написать так: «Высокий уровень образования связан с повышенным риском развития опухоли головного мозга», хотя работа посвящалась скорее социально-экономическому положению, чем образованию. Однако к тому времени, когда результаты были представлены широкой публике, помощник редактора одной из газет выдал классический заголовок: «Почему поступление в университет повышает риск развития опухоли мозга».
 
Такой заголовок встревожил бы любого, кто имеет высшее академическое образование. Но стоит ли на самом деле беспокоиться? Исследование основывалось на всей доступной генеральной совокупности, а не на выборке, поэтому мы с уверенностью можем заключить, что у более образованных людей действительно немного чаще выявляли опухоль головного мозга. Но неужели интенсивные нагрузки в библиотеке действительно перегревали мозг и вели к неблагоприятным мутациям клеток? Несмотря на газетный заголовок, я в этом сомневаюсь. Как, собственно, и авторы статьи, которые добавили: «Потенциальным объяснением такого результата могут быть полнота регистрации рака и ошибка выявления». Другими словами, люди с более высоким уровнем образования с большей вероятностью пройдут обследование, а значит, опухоли будут регистрироваться чаще (пример того, что в эпидемиологии называется ошибкой обращаемости – это систематическая ошибка, при которой в выборке собраны случаи, не представляющие равным образом все категории генеральной совокупности).
 
Корреляция не означает причинность
 
Коэффициент корреляции Пирсона показывает, насколько близко к прямой расположены точки на диаграмме рассеяния. Когда мы рассматривали английские больницы, проводившие в 1990-х операции на сердце у детей, и отображали на диаграмме точки, отражавшие число операций и уровень выживаемости, высокая корреляция демонстрировала, что более крупные больницы ассоциировались с более низким уровнем смертности. Однако мы не могли сделать вывод, что более крупные больницы и есть причина более низкой смертности.
 
У такого осторожного отношения солидная родословная. Когда в журнале Nature в 1900 году обсуждали предложенный Карлом Пирсоном коэффициент корреляции, один комментатор предупредил, что «корреляция не означает причинно-следственной связи». В течение следующего столетия эта фраза стала мантрой, постоянно повторяемой статистиками при столкновении с заявлениями, основанными на простом наблюдении, что какие-то две вещи имеют тенденцию изменяться вместе. Существует даже специальный сайт, который автоматически находит невероятные связи: например, очаровательную корреляцию 0,96 между ежегодным потреблением сыра моцарелла в США за 2000–2009 годы и количеством докторских степеней по гражданскому строительству, полученных за этот период.
 
Похоже, у людей есть глубокая внутренняя потребность объяснять происходящее в виде простейшей зависимости «причина → следствие». Уверен, что каждый из нас мог бы придумать увлекательную историю обо всех этих остепененных инженерах, поглощающих пиццу с сыром. Существует даже специальное слово для склонности конструировать связи между событиями, которые в реальности не связаны, – апофения, причем ее крайнее проявление – объяснять простую случайность или невезение злонамеренностью других и даже колдовством.
 
К сожалению (а, возможно, к счастью), мир несколько сложнее, чем колдовство. И первая сложность появляется при попытке понять, что подразумевается под «причиной».
 
Что такое причинность?
 
Причинность – это довольно спорный и активно обсуждаемый вопрос, что, вероятно, кажется удивительным, поскольку в реальной жизни все выглядит просто: мы что-то делаем, и это к чему-то приводит. Дверь машины зажала мой большой палец, и теперь он болит.
Но откуда мне знать, что большой палец не заболел бы в любом случае? Возможно, мы могли бы обратиться к тому, что называется контрфактуальным мышлением (размышления о том, что могло бы произойти, но не произошло). Если бы мой палец не зажало дверью, то он бы не болел. Но это всегда будет предположением, требующим переписывания истории, поскольку мы никогда точно не узнаем, что я мог бы почувствовать (хотя в данном случае я могу быть вполне уверен, что мой палец не заболит внезапно сам по себе).
 
Ситуация осложняется еще больше, когда мы начинаем учитывать неизбежную изменчивость, лежащую в основе событий в реальной жизни. Например, медицинское сообщество сейчас соглашается с тем, что курение вызывает рак легких, однако врачам потребовались десятилетия, чтобы прийти к такому заключению. Почему так долго? Потому что большинство курильщиков не заболевают раком легких, в то время как некоторые некурящие заболевают. Все, что мы можем сказать, – это то, что у вас выше риск заболеть раком легких, если вы курите, чем если не курите; и это одна из причин того, почему для принятия законов об ограничении курения понадобилось столько времени.
 
Таким образом, наша «статистическая» идея причинности не будет строго детерминистской. Когда мы говорим, что X обусловливает Y, мы не имеем в виду, что каждый раз, когда наступает X, наступает и Y. Мы всего лишь подразумеваем, что если вмешаемся и заставим X происходить чаще, то и Y будет случаться чаще. Соответственно, мы никогда не сможем сказать, что X вызывает Y в данном случае, а можем лишь утверждать, что X увеличивает долю случаев, когда происходит Y. Из этого вытекают два важнейших следствия относительно того, что нам нужно делать при намерении понять причинно-следственную связь. Во-первых, чтобы вывести причинно-следственную связь с полной уверенностью, в идеале нам нужно вмешаться и провести эксперименты. Во-вторых, поскольку мир статистический и стохастический, вмешаться нужно не один раз, чтобы собрать доказательства.
 
Все это естественным образом подводит нас к очень деликатной теме – проведению клинических испытаний на больших группах людей. Мало кому понравится идея экспериментов над собой, особенно если речь идет о жизни и смерти. Это тем более примечательно, что тысячи людей изъявляли желание участвовать в масштабных исследованиях, в которых ни они, ни врачи не знали, какое лечение в итоге будет применено.
 
Уменьшают ли статины риск инфарктов и инсультов?
 
Каждый день я принимаю маленькую белую таблетку – статин, потому что мне сказали, что он понижает уровень холестерина и тем самым уменьшает риск инфарктов и инсультов. Но как это сказывается на мне? Я почти уверен, что эти таблетки снижают уровень холестерина липопротеинов низкой плотности (ЛПНП) (белки крови, которые переносят холестерин. Хотя такой белок и называют пренебрежительно «плохим холестерином», на самом деле такие белки вовсе не холестерин, а лишь его переносчики. ), поскольку мне сообщили, что он упал вскоре после того, как я начал их принимать. Снижение ЛПНП – непосредственный, по сути, детерминированный эффект, который, как я полагаю, вызван приемом статина.
 
Однако я никогда не узнаю, принесет ли мне этот ежедневный ритуал пользу в долгосрочной перспективе; все зависит от того, какой из многочисленных сценариев моей дальнейшей жизни будет на самом деле разыгран. Если инфаркта или инсульта у меня никогда не будет, то я так и не узнаю, в какой-то степени это результат приема таблеток, или их многолетнее глотание здесь ни при чем и просто оказалось напрасной тратой времени. Если инфаркт или инсульт все же случится, то я не узнаю, было ли это событие отложено благодаря приему статина. Все, что мне дано знать, – это то, что в среднем препарат приносит пользу большой группе похожих на меня людей и что это знание основано на масштабных клинических испытаниях.
 
Цель клинических испытаний – провести «правильный тест», который верно определяет причинность и оценивает средний эффект нового медицинского метода лечения, и при этом избежать ошибок, которые могли бы дать ложное представление о его эффективности.
 
Правильное клиническое исследование в идеале должно соответствовать следующим принципам:
 
1. Контроль. При намерении изучить влияние статинов на популяцию мы не можем просто дать их нескольким добровольцам, а затем, если инфаркта не будет, заявить, что его удалось избежать благодаря приему таблеток (несмотря на наличие сайтов, которые используют подобные смехотворные рассуждения для продвижения своей продукции). Нам нужна экспериментальная группа, которой будут давать статины, и контрольная группа, принимающая сахарные таблетки или плацебо.
 
2. Распределение при лечении. Важно сравнивать подобное с подобным, поэтому и лечение, и группы сравнения должны быть максимально похожи.

Лучший способ этого добиться – случайно распределить участников по группам, а потом наблюдать, что с ними происходит. Такой метод называется рандомизированным контролируемым исследованием (РКИ). В тестировании статинов задействуется значительное количество людей, поэтому обе группы должны быть сходны по всем факторам, которые могли бы повлиять на результат, включая (что критически важно) те, о которых мы не знаем. Такие исследования могут быть весьма масштабными: в исследовании по защите сердца (HPS), проведенном в Великобритании в конце 1990-х годов, 20 536 человек с повышенным риском инфаркта или инсульта были случайным образом распределены на две группы: одним ежедневно давали 40 мг симвастатина, а другим – пустую таблетку.
 
3. Подсчет количества людей в обеих группах. Люди, попавшие в группу «статинов» в исследовании по защите сердца, включались в итоговый анализ, даже если не принимали свои таблетки. Такой принцип называется «анализ по назначенному лечению» и может показаться довольно странным. Это означает, что итоговая оценка эффекта статинов в действительности измеряет эффект прописанных статинов, а не фактически принимаемых. На практике, конечно, людям настоятельно рекомендовали пить таблетки в течение всего исследования, хотя через пять лет HPS 18% тех, кому были прописаны статины, прекратили их принимать, в то время как целых 32% тех, кому было назначено плацебо, в действительности начали принимать статины в ходе испытаний.

Поскольку люди, изменяя лечение, как правило, размывают различия между группами, мы можем ожидать, что видимый эффект в анализе по назначенному лечению может быть меньше, чем эффект от реального приема препарата.
 
4. Если возможно, люди не должны знать, в какую из двух групп входят. В испытаниях статинов и настоящие препараты, и плацебо выглядели одинаково, поэтому участники не знали, что именно принимают.
 
5. Процедуры для групп должны быть одинаковыми. Если бы группу, которая употребляла статины, чаще приглашали в больницу или более тщательно обследовали, то было бы невозможно разграничить пользу от применения препарата и от улучшенного ухода. В HPS персонал, наблюдавший за пациентами, не знал, кто из них принимает статины, а кто – плацебо.
 
6. По возможности те, кто оценивает итоговые результаты, не должны знать, к какой группе относятся испытуемые: полагая, что лечение помогает, врач может преувеличить пользу для экспериментальной группы, то есть допустить неосознанную ошибку.
 
7. Измеряйте всех. Нужно приложить максимум усилий, чтобы отследить всех участников, поскольку люди, бросившие исследование, могли, например, это сделать из-за побочных эффектов препарата. У HPS были замечательные 99,6% полного наблюдения за всеми в течение пяти лет – эти результаты приведены в табл. 1.1.
 
Результаты пяти лет исследования защиты сердца в соответствии с лечением, назначенным пациентам
 
Таблица 1.1

Результаты пяти лет исследования защиты сердца в соответствии с лечением, назначенным пациентам. Абсолютное снижение риска инфаркта составило 11,8–8,7 =  3,1%. Таким образом, в группе из 1000 человек, принимавших статины, был предотвращен примерно 31 инфаркт. Это означает, что для предотвращения одного инфаркта примерно 30 человек должны принимать статины в течение пяти лет
 
Те, кто попал в группу, принимавшую статины, явно в среднем имели лучшие показатели здоровья, а поскольку пациенты распределялись случайным образом и в остальном лечились одинаково, результат можно считать следствием приема статинов. Однако мы видели, что многие люди на самом деле не придерживались назначенного лечения, и это приводит к некоторому размыванию разницы между группами: специалисты, проводившие HPS, оценивают реальный эффект от приема статинов примерно на 50% выше, чем показано в табл. 1.1.
 
Два важных итоговых замечания:
 
1. Не полагайтесь на одно исследование. Один отдельный эксперимент может нам сказать, что лекарство работало в определенной группе в определенном месте, но надежные выводы требуют нескольких исследований.
2. Систематически проверяйте доказательства. При рассмотрении нескольких испытаний обязательно включайте каждое проведенное исследование, создавая таким образом систематический обзор. Затем результаты можно формально объединить в метаанализ.
 
Например, недавний систематический обзор собрал данные двадцати семи рандомизированных контролируемых исследований статинов, в которых участвовало более 170 тысяч человек с пониженным риском сердечно-сосудистых заболеваний. Но вместо того чтобы фокусироваться на разнице между экспериментальной (принимающей статины) и контрольной группами, оценивался эффект от снижения уровня ЛПНП. По сути, исследователи предположили, что эффект статинов достигается посредством изменения липидов в крови, и основывали свои расчеты на среднем уменьшении ЛПНП, установленном в каждом из испытаний, учитывающем любое несоблюдение назначенного лечения. Такое дополнительное предположение позволило оценить эффект от фактического приема статинов. Ученые пришли к выводу, что снижение уровня ЛПНП на 1 ммоль/л (миллимоль на литр) уменьшает риск серьезных проблем (в том числе преждевременную смерть) с сердечно-сосудистой системой на 21%. Мне, например, этого достаточно, чтобы продолжать принимать такие таблетки. Согласно заключению исследователей, для людей с моим базовым риском и без предшествующего заболевания уменьшение ЛПНП на 1 ммоль/л снижает риск серьезных проблем с сердечно-сосудистой системой на 25%. После начала приема статинов мой уровень ЛПНП снизился на 2 ммоль/л, а значит, ежедневное употребление статинов изменило мой годовой риск развития инфаркта или инсульта примерно на 0,75 × 0,75 = 0,56, то есть снизило мой риск на 44%. Поскольку у меня риск инфаркта или инсульта за 10 лет составлял примерно 13%, прием статинов уменьшил бы его до 7%. Это означает, что прописанные мне статины полезны – и хорошо, что я их действительно принимаю.
 
Мы проигнорировали вероятность того, что любая наблюдаемая связь необязательно является причинно-следственной, а может быть просто результатом случайности. Большинство лекарственных препаратов на рынке обладают лишь умеренным воздействием и помогают только меньшинству принимающих их людей; их общую полезность можно точно выявить исключительно в рамках крупных тщательных рандомизированных исследований. Испытания статинов довольно-таки масштабны, особенно когда они объединены в метаанализ, а значит, полученные результаты нельзя объяснить простым случайным отклонением.
 
Эффективна ли молитва?
 
Список принципов РКИ не нов: почти все они были введены в 1948 году в эксперименте, который считается первым правильным клиническим испытанием. Тогда исследовался стрептомицин – лекарство, предназначенное для борьбы с туберкулезом. Конечно, было бы слишком безнравственно случайным образом определять, кого лечить, а кого оставить без потенциально спасающего жизнь препарата. Однако принятию столь трудного решения способствовал тот факт, что имеющегося в то время в Великобритании лекарства в любом случае не хватило бы на всех, поэтому случайный выбор казался вполне справедливым и этически обоснованным. Но даже по прошествии стольких лет и тысяч проведенных РКИ общество все еще может удивиться, узнав, что медицинские решения о том, какое лечение рекомендовать человеку (даже такие драматичные, как радикальная мастэктомия или лампэктомия при раке молочной железы), фактически принимаются путем подбрасывания монеты (пусть это и метафорическая монета, воплощенная в генераторе случайных чисел в компьютере).
 
На практике процесс назначения лечения в испытаниях гораздо сложнее, чем простая рандомизация в каждом случае, так как мы хотим убедиться, что все типы людей одинаково представлены в группах, получающих различные виды лечения. Например, мы можем захотеть, чтобы количество пожилых людей с повышенным риском, принимающих статины и плацебо, распределялось примерно поровну. Эта схема позаимствована из сельскохозяйственных экспериментов, где многие идеи рандомизированных исследований возникли в основном благодаря работе Рональда Фишера (о котором мы расскажем чуть позже). Например, большое поле делится на отдельные участки, а затем для каждого участка случайным образом выбирается удобрение – так же как люди случайным образом получают назначение на лечение. Но части поля могут разниться по дренажу, затененности и другим признакам, поэтому предварительно поле нужно разделить на блоки, содержащие примерно сходные участки, а уже затем осуществить рандомизацию, чтобы в каждом блоке было равное число участков с тем или иным удобрением. В таком случае способы обработки земли будут сбалансированными, скажем на заболоченных участках одинаково применят все виды удобрений.
 
Например, однажды я работал над рандомизированным испытанием, где сравнивались два альтернативных метода лечения грыжи: стандартная «открытая» операция и лапароскопия (операция с минимальным вмешательством). Предполагалось, что мастерство хирургической бригады во время испытаний может возрастать, поэтому было важно, чтобы в течение всего исследования эти два метода были сбалансированы. Поэтому я разбил цепочку пациентов на блоки по 4 и 6 человек, а затем случайно распределял их внутри каждого блока по методам операции. Используемые методы были напечатаны на листочках бумаги, которые я сложил и поместил в пронумерованные непрозрачные коричневые конверты. Помню, как я наблюдал за больными, лежащими на предоперационной каталке, понятия не имея, какую именно операцию им будут делать, в то время как анестезиолог открывал конверт и узнавал, что с ними случится дальше, в частности вернутся ли они домой с одним большим шрамом или несколькими точечными проколами.
 
Рандомизированные испытания стали золотым стандартом тестирования новых медицинских методов, а теперь все чаще используются и при оценке эффективности новых методик в сфере образовании или правоохранительной деятельности. Например, британская организация Behavioural Insights Team случайным образом отобрала половину школьников, пересдающих экзамены по математике и английскому языку, и регулярно отправляла им поощряющие текстовые сообщения, чтобы поддержать в учебе. В результате доля сдавших экзамены среди тех, кто имел такую поддержку, оказалась на 27% выше. Эта же группа исследователей наблюдала и ряд положительных эффектов в рандомизированном испытании видеокамер, закрепленных на теле полицейских, – к примеру, снижение количества остановленных и безосновательно обысканных.
 
Проводились даже эксперименты для определения эффективности молитвы. Например, в рамках исследования терапевтических эффектов ходатайственной молитвы (STEP) свыше 1800 пациентов с шунтированием сердца случайным образом разделили на три группы: за пациентов 1-й и 2-й групп, соответственно, молились и не молились, но при этом они не знали, молятся за них или нет, а вот члены 3-й группы знали, что за них молятся. Единственным заметным эффектом было незначительное увеличение осложнений в группе, где знали, что за них молятся. Один из исследователей прокомментировал это так: «Возможно, это заставило их сомневаться и задаться вопросом: “Неужели я настолько болен, что им пришлось вызвать свою молитвенную команду?”»
 
Основное из последних нововведений в рандомизированных экспериментах – A/B-тестирование в веб-дизайне, при котором пользователей направляют на различные варианты веб-страницы (о чем они не знают). Далее измеряется количество времени, проведенного на том или ином варианте страницы, переходов по рекламным объявлениям и так далее. Серия A/B-тестов может быстро привести к оптимальному дизайну, а огромные размеры выборки означают, что даже небольшие, но потенциально выгодные эффекты гарантированно обнаружатся. Следовательно, совершенно новое сообщество людей должно было узнать о тонкостях пробных испытаний, в том числе о рисках при проведении множественных сравнений.
 
Почему у стариков большие уши?
 
Легко провести рандомизацию, когда нужно, скажем, изменить сайт: можно без проблем найти участников, поскольку они даже не знают, что участвуют в эксперименте, и нет никаких этических проблем в использовании их в качестве подопытных кроликов. Однако иногда осуществить рандомизацию не просто трудно, а невозможно: мы не можем проверять влияние привычек, например, заставляя людей в рамках исследования курить или употреблять нездоровую пищу (даже если такие эксперименты проводятся на животных). Когда данные появляются не в результате эксперимента, а просто из наблюдений, их называют наблюдательными (а соответствующие исследования – наблюдательными, или обсервационными). Поэтому часто наша задача – постараться как можно лучше отделить корреляцию от причинно-следственной связи, применяя к наблюдательным данным статистические принципы и хороший план исследования в сочетании со здоровой дозой скептицизма.
 
Вопрос об ушах стариков, возможно, не так важен, но он иллюстрирует необходимость выбора плана исследования, который подойдет для ответа на вопросы. Если мы обратимся к подходу на основе цикла PPDAC, то проблема строится на моем личном наблюдении, что у стариков, похоже, действительно слишком большие уши. Но почему? Очевидный план – посмотреть, коррелирует ли в генеральной совокупности возраст с длиной ушей взрослых людей. Как оказалось, группа медиков-исследователей в Великобритании и Японии собрала данные в таком поперечном исследовании: их анализ показал явную положительную корреляцию, и они пришли к заключению, что длина ушей связана с возрастом.
 
Теперь наша задача – попытаться объяснить такую связь. Уши продолжают расти с возрастом? Или у нынешних пожилых людей они всегда были большими, а из-за каких-то событий, произошедших за последние десятилетия, у предыдущих поколений уши меньше? Или же люди с ушами меньшего размера просто умирают раньше по каким-то причинам, ведь существует же у китайцев поверье, что большие уши предсказывают долгую жизнь. Чтобы придумать, какие исследования могли бы проверить такие идеи, нужно определенное воображение. В проспективном когортном исследовании участники измеряли бы уши всю свою жизнь, проверяя, не растут ли они, или не умирают ли раньше люди с небольшими ушами. Но это требует много времени, поэтому можно применить альтернативу – ретроспективное когортное исследование, то есть взять нынешних стариков и попытаться выяснить, выросли ли у них уши, например, с помощью старых фотографий. Исследование типа «случай-контроль» могло бы к уже умершим людям подобрать живущих, которые соответствуют им по возрасту и прочим факторам, связанным (по нашим сведениям) с долголетием, и посмотреть, больше ли уши у тех, кто прожил дольше. А затем цикл решения задачи запустится снова.
 
Что мы можем сделать, наблюдая какую-то связь?
 
Именно здесь требуется определенное статистическое воображение, и попытка догадаться о причинах того, почему наблюдаемая корреляция может быть ложной, обещает стать приятным упражнением. Некоторые причины довольно просты: значительная корреляция между потреблением моцареллы и числом инженеров, по-видимому, обусловлена тем, что обе категории увеличиваются со временем. Точно так же любые корреляции между продажами мороженого и числом утонувших зависят от погоды. Когда видимую связь между двумя величинами можно объяснить наличием какого-то наблюдаемого внешнего фактора, влияющего на обе величины, его называют возмущающим, или искажающим фактором. И год, и погода – это потенциальные возмущающие факторы, которые можно регистрировать и учитывать при анализе.
 
Простейший метод работы с возмущающим фактором – посмотреть на видимые связи при каждом его уровне. Это называется поправкой, или стратификацией. Например, мы могли бы изучить связь между продажами мороженого и числом утонувших в дни с примерно одинаковой температурой воздуха.
 
Однако поправка может привести к некоторым парадоксальным результатам, как показал анализ процента зачисления абитуриентов в Кембриджский университет для обоих полов в 1996 году. Общая доля поступивших на пять учебных дисциплин в Кембридже была чуть выше у мужчин (24% из 2470 абитуриентов), чем у женщин (23% из 1184 абитуриенток). Это те дисциплины, которые сегодня принято обозначать аббревиатурой НТИМ (STEM) – наука, технологии, инженерия и медицина, то есть предметы, исторически изучаемые преимущественно мужчинами. Была ли тут гендерная дискриминация?
 
Внимательно посмотрите на табл. 1.2. Хотя общий процент зачисления выше у мужчин, на каждую отдельную дисциплину он выше у женщин. Как мог возникнуть такой парадокс? Объяснение заключается в том, что женщины чаще подавали заявления на более популярные, конкурентные дисциплины – медицину и ветеринарию, и реже – на инженерию, где у них более высокий процент поступления. Поэтому мы можем заключить, что никаких подтверждений дискриминации нет.

парадокс Симпсона
 
Таблица 1.2

Иллюстрация парадокса Симпсона на примере данных о поступлении в Кембриджский университет в 1996 году. Общий процент зачисленных абитуриентов выше у мужчин, однако процент зачисления на каждую дисциплину отдельно выше у женщин.
 
Описанная ситуация известна как парадокс Симпсона, который возникает, когда видимое направление взаимосвязи становится обратным с учетом возмущающего фактора. В результате вывод, извлеченный из данных, становится противоположным. Статистики наслаждаются поиском подобных примеров в реальной жизни, так как каждый из них подчеркивает, насколько осторожно нужно обращаться с наблюдательными данными. Тем не менее такие случаи показывают идеи, возникающие при разделении данных по факторам, которые могут объяснить наблюдаемые связи.
 
Добавляет ли близость к супермаркету Waitrose 36 тысяч фунтов к стоимости вашего дома?
 
В 2017 году британские СМИ опрометчиво опубликовали заявление, что соседство с супермаркетом сети Waitrose «добавляет 36 тысяч фунтов к цене дома». Однако это было не исследование изменения цен на жилье в связи с открытием нового супермаркета, и Waitrose, конечно же, не размещает свои магазины случайным образом: эти данные всего лишь корреляция между ценами на жилье и близостью супермаркетов, особенного таких высококлассных, как Waitrose.
 
Эта корреляция практически наверняка отражает политику Waitrose по открытию магазинов в более богатых районах, а потому представляет собой прекрасный пример того, что фактическая причинно-следственная связь является полной противоположностью заявлению в газете. Неудивительно, что она называется обратной причинной зависимостью. Более серьезные примеры встречаются в исследованиях, изучающих взаимосвязь между употреблением алкоголя и состоянием здоровья: как правило, показатель смертности у непьющих людей в целом существенно выше, чем у умеренно пьющих. Как это понимать, учитывая, что мы знаем о влиянии алкоголя на печень? Частично это объясняется обратной причинной зависимостью: люди, которые умирают с более высокой вероятностью, не пьют, потому что уже больны (возможно, из-за чрезмерного употребления алкоголя в прошлом). Сегодня более тщательный анализ исключает бывших алкоголиков, а также игнорирует неблагоприятные для здоровья события, происходящие в первые несколько лет исследования, поскольку они могут быть результатом предыдущих условий. Однако даже при таких исключениях некоторая общая польза для здоровья от умеренного употребления алкоголя, похоже, остается, хотя и активно оспаривается.
 
Еще одно забавное упражнение – попробовать сочинить историю с обратной причинной зависимостью для любого статистического заявления, основанного исключительно на корреляции. Моя любимая история – о корреляции между потреблением безалкогольных газированных напитков американскими подростками и их склонностью к насилию. Хотя одна газета преподнесла это так: «Газированные напитки делают подростков жестокими», что, скорее всего, так же правдоподобно, как и утверждение, что насилие вызывает жажду. Или, что более правдоподобно, мы могли бы придумать некие общие факторы, влияющие на обе величины, например принадлежность к какой-то группе сверстников. Потенциальные причины, которые мы не измеряем, называются скрытыми факторами, поскольку они остаются на заднем плане, не входят в поправки и только и ждут подходящего момента, чтобы опровергнуть наивные выводы из наблюдательных данных.
 
Вот еще несколько примеров того, как легко поверить в наличие причинно-следственной связи, хотя на самом деле на события влияет посторонний фактор.
 
• У многих детей диагностируется аутизм после вакцинации. Вызывает ли вакцинация аутизм? Нет, но эти события возникают примерно в одном возрасте, а потому неизбежны случайные совпадения.
• Среди ежегодно умирающих людей доля левшей меньше, чем во всей популяции. Означает ли это, что левши живут дольше? Нет, это происходит потому, что те, кто умирает сейчас, родились во времена, когда детей насильственно переучивали пользоваться правой рукой, поэтому пожилых левшей меньше.
• Средний возраст смерти римских пап выше, чем в среднем в популяции. Означает ли это, что избрание папой помогает жить дольше? Нет, просто пап выбирают из группы людей, которые не умерли молодыми (в противном случае они не были бы кандидатами).
 
Миллионы способов, которыми нас можно поймать в ловушку, могут подтолкнуть к мысли, что причинно-следственную связь можно выявить только в рандомизированном эксперименте. Но, по иронии судьбы, эту точку зрения опроверг человек, отвечавший за первое современное рандомизированное клиническое исследование.
 
Как сделать заключение о причинной связи по наблюдательным данным?
 
Остин Брэдфорд Хилл был блестящим британским прикладным статистиком, находящимся в авангарде двух изменивших мир научных достижений: он разработал упомянутые ранее клинические испытания стрептомицина, которые фактически установили стандарты для всех последующих РКИ, и провел вместе с Ричардом Доллом в 1950-х годах исследование, по сути, подтвердившее связь между курением и раком легких. В 1965 году он изложил список критериев, которые необходимо учесть, прежде чем делать вывод о том, что наблюдаемая связь между воздействием и результатом является причинной. Под воздействием здесь понимается что угодно – от химических веществ в окружающей среде до таких привычек, как курение или недостаточное количество физических упражнений.
 
Впоследствии эти критерии широко обсуждались. Представленная ниже версия разработана Джереми Хоуиком с коллегами, которые выделили в ней прямые, механистические и параллельные доказательства.
 
Прямое доказательство:
 
1. Масштаб эффекта настолько велик, что его нельзя объяснить разумными возмущающими факторами.
2. Существует соответствующая временная и/или пространственная близость, когда причина предшествует эффекту, а эффект возникает через разумный интервал, и/или причина происходит в том же месте, что и эффект.
3. Чувствительность к дозе и обратимость: при увеличении воздействия эффект увеличивается. Подтверждение еще сильнее, если эффект уменьшается при уменьшении дозы.
 
Механистическое доказательство:
4. Существует правдоподобный механизм действия, который может быть биологическим, химическим или механическим, с внешним подтверждением «причинно-следственной цепочки».
 
Параллельное доказательство:
5. Эффект соответствует тому, что уже известно.
6. Эффект обнаруживается при повторном воспроизведении исследования.
7. Эффект выявляется в аналогичных, но не идентичных исследованиях.
 
Такие принципы позволяют выявить причинно-следственную связь в наборе разрозненных данных даже при отсутствии рандомизированных испытаний. Например, установлено, что при втирании аспирина в ротовой полости (например, для облегчения зубной боли) образуются язвочки. Эффект силен (удовлетворяет критерию 1), происходит при втирании (2), является правдоподобной реакцией на кислотный компонент препарата (3), не противоречит современным научным данным и аналогичен известному эффекту, при котором аспирин вызывает язву желудка (4), а также регулярно наблюдается у различных пациентов (5). Итого соблюдены пять из семи критериев, оставшиеся два не проверялись, поэтому вполне резонно заключить, что мы имеем дело с истинной побочной реакцией на препарат.
 
Критерии Брэдфорда Хилла применяются к общим научным заключениям, касающимся генеральных совокупностей. Но нас могут интересовать и отдельные случаи – например, в гражданской тяжбе, когда суду нужно решить, привело ли определенное воздействие (скажем, наличие асбеста на работе) к негативному результату для конкретного лица (например, к раку легких у Джона Смита). Никогда нельзя установить с полной уверенностью, что асбест стал причиной рака, поскольку невозможно доказать, что без асбеста рак не развился бы. Тем не менее некоторые суды признают, что по «принципу большей вероятности» прямая причинная связь установлена, если показатель относительного риска, связанного с воздействием, превосходит 2. Но почему именно 2?
 
Предположительно аргументация этого решения такова:
 
1. Допустим, при обычных обстоятельствах из 1000 человек, подобных Джону Смиту, раком легких заболеют 10. Если асбест повышает риск более чем вдвое, то при его воздействии на 1000 человек наблюдалось бы, возможно, 25 случаев рака.
2. Таким образом, среди тех, кто подвергался воздействию асбеста и получил рак легких, меньше половины заболели бы раком при отсутствии асбеста.
3. Следовательно, более половины случаев рака в этой группе вызваны асбестом.
4. А поскольку Джон Смит принадлежит к этой группе, по принципу большей вероятности его рак вызван асбестом.
 
Подобные рассуждения привели к появлению новой области науки – судебной эпидемиологии, которая пытается использовать сведения, полученные из общей популяции, для заключения о том, что могло стать причиной конкретных событий. По сути, эта дисциплина обязана своим появлением людям, требующим компенсаций, но это очень интересная область для статистических рассуждений о причинно-следственных связях.
Правильная трактовка причинно-следственной связи по-прежнему остается предметом жарких споров в статистике, неважно, касается это фармацевтических препаратов или больших ушей, и без рандомизации редко удается сделать надежные выводы. Один творческий подход основывается на том, что многие гены распределяются по популяции фактически случайным образом, поэтому мы как будто рандомизированы при зачатии – получилась вот такая версия. Этот подход известен как менделевская рандомизация, названная так в честь Грегора Менделя, автора учения о наследственности.
 
Чтобы максимально учесть все возмущающие факторы и тем самым приблизиться к оценке реального эффекта воздействия, были разработаны и другие сложные статистические методы, в значительной степени основанные на важной идее регрессионного анализа. И за это мы снова должны поблагодарить богатое воображение Фрэнсиса Гальтона.
 
Выводы
 
• Причинность в статистическом анализе означает, что при нашем вмешательстве шансы различных исходов изменяются по определенной системе.
• Причинно-следственную связь трудно установить статистически, однако хорошо спланированные рандомизированные исследования – наилучшая возможная схема.
• Принципы слепоты, анализа по назначенному лечению и прочего позволяют проводить масштабные клинические исследования для выявления умеренных, но важных эффектов.
• Наблюдательные данные могут отличаться фоновыми факторами, которые влияют на видимые наблюдаемые взаимосвязи между воздействием и результатом. Они могут оказаться либо наблюдаемыми возмущающими, либо скрытыми факторами.
• Для поправки на прочие факторы существуют специальные статистические методы, однако всегда требуется уточнение о степени уверенности, с которой можно говорить о предполагаемой причинно-следственной связи.
 
Источник

«Это нормально не знать ответы на все вопросы. Лучше признавать свое невежество, чем верить в ответы, которые могут быть неправильными. Притворство что мы знаем все, закрывает дверь для понимания что же там на самом деле»

Нил Деграсс Тайсон

Файлы

Конец веры

Острая стратегическая недостаточность

Физика будущего

Маркс, Энгельс и Ленин о науке и технике