Наука исправляет склонность людей к ошибкам

Существует целая серия книг, в том числе бестселлеры New York Times, о том, что маленькие «совпадения», которые мы переживаем в жизни, не происходят случайно – на самом деле это Бог, говорящий напрямую с нами, и их называют «подмигивания Бога». В конце концов, какое еще может быть объяснение? Одно совпадение может произойти по невероятной случайности, но со множеством людей случались истории, которые кажутся настолько маловероятными, что они должны отражать нечто большее, некую мистическую силу – это должен быть голос Бога, обратившегося к нам по имени. Было продано более 1 миллиона экземпляров книг сквайра Рашнелла, посвященных «божественной ухмылке», и очевидно, что эта идея широко привлекает людей. Конечно, с точки зрения строгой логики я не могу исключить, что Бог на самом деле говорит с нами, используя совпадения в качестве своего языка, – возможно, это просто способ, которым Бог общается с людьми. Действительно, такова основа многих систем убеждений, количество приверженцев которых в миллионы раз превышает количество профессиональных ученых во всем мире. Неужели так много людей ошибаются?

Также нужно учитывать все те вещи, которые происходят не случайно. Вспомните, как вы подумали о друге, а через несколько минут получили текстовое сообщение от этого самого друга. Это было так странно, почти жутко, и заставило задуматься об объяснении. Возможно, вы так долго дружите и настолько сблизились духовно, что между вами происходит какое-то мысленное общение, или, может быть, у вас случился момент ясновидения. Однако есть и то, чего вы никогда не замечали, – это все те моменты, когда вы думали о ком-то и не получали от него сообщения, или вы получали сообщение, но оно было от кого-то другого, или вы ни о ком не думали, и все равно получили сообщение. Как только вы примете во внимание все произошедшие события, которых вы не замечаете, совпадение станет гораздо менее впечатляющим.

Хотя нельзя исключить, что пугающее совпадение стало следствием божест венного подмигивания, очевидно, что такие совпадения все равно возможны и без участия Бога. Современная наука признает тот факт, что люди склонны к определенным ошибкам:

мы неправильно распознаем и осознаем случайные процессы;
мы неправильно оцениваем вероятность в контексте всей сопутствующей информации (статистический базы);
мы склонны придавать значение случайным событиям и овеществлять ошибки мышления (например, эвристика);
мы склонны к обобщениям на основе очень небольшого количества данных;
мы склонны искать подтверждающую информацию и игнорировать то, что противоречит нашим убеждениям (предвзятость и особые обстоятельства, это одна из форм человеческого заблуждения, когда предсказание сделано, но не сбылось, а неудачу предсказания объясняют некоторыми особыми обстоятельствами).

По мере того как ученые стали лучше понимать проблему искаженного восприятия, наука нацелилась на смягчение (если не полное устранение) последствий таких заблуждений. Напротив, другие системы убеждений (например, вера в «подмигивание Бога») не только игнорируют стратегии, призванные уменьшить потенциальные ошибки толкования, но и поддерживают и поощряют ошибочное восприятие, предполагая, что именно здесь мы должны искать объяснения и смысл. Это фундаментальное различие в подходах к поиску логической целостности – в правилах изменения сети убеждений.

Вопрос не в том, происходят ли маловероятные события, вопрос в том, требуют ли они объяснения, когда происходят. Иными словами, имеют ли маловероятные совпадения более глубокий смысл или отражают естественный ход вещей. Если события происходят действительно случайным образом, нет ни малейших оснований приписывать им какое-либо значение. Точнее наоборот, есть все основания не приписывать им значение, поскольку это приведет к появлению ошибочных и потенциально разрушительных связей в системе убеждений. Основной способ оценить значимость события – найти оценку вероятности того, что оно могло произойти исключительно случайно, а затем сравнить ожидаемую частоту события с наблюдаемой. Если событие случается не чаще, чем это предсказано теорией вероятности, значит, оно просто отражает случайную природу окружающего мира и имеет отношения к неизвестным явлениям или причинам. Однако если события происходят чаще, чем ожидалось, то либо наша оценка вероятности события неверна, либо происходит что-то еще, что требует более глубокого изучения. В то время как наука старается рассматривать редкие события в контексте всех происходящих событий и не тратить время на то, что является просто случайным шумом, другие системы убеждений специально сосредоточиваются на случайных событиях (например, на «подмигивании Бога»).

В 1994 году в журнале «Статистическая наука» появилась статья «Последовательности букв на одинаковом расстоянии в Книге Бытия». Дорон Витцтум, Элиягу Рипс и Йоав Розенберг сообщали, что передовые подходы к распознаванию упорядоченных шаблонов раскрывают тайный смысл библейского текста. И действительно, когда текст Библии пропустили через мощные математические алгоритмы для поиска закономерностей, выделяющихся на фоне шума, проявились некоторые невероятные закономерности, которые трудно игнорировать. Читатель должен заметить, что «Статистическая наука» – серьезный академический журнал, материалы которого проходят тщательное рецензирование. Авторы этой статьи утверждали, что закономерности в Библии встречаются чаще, чем это могло бы случиться просто случайно, что указывает на существование глубоко скрытого кода. Так что это значит? Верно ли, что они раскрыли секретный код, скрытый в тексте Библии, через который Бог пытается общаться с нами?

Многие системы человеческого наблюдения, как и многие люди, способны распознавать открытый код. Однако научные методы были разработаны специально, чтобы компенсировать склонность людей ошибочно находить ассоциации, которых нет. В том числе были разработаны продвинутые статистические методы для выявления типичных ошибок наподобие игнорирования или неправильной оценки статистической базы. К сожалению, именно это и произошло в случае с библейским кодом, который был просто случайной последовательностью, выявленной за счет игнорирования всех комбинаций букв, которые не имели смысла. Брендан Маккей эффектно показал, что применение того же алгоритма, который использовался для поиска библейского кода, к «Моби Дику» Германа Мелвилла раскрыло предсказания гибели доктора Мартина Лютера Кинга-младшего, премьер-министра Индиры Ганди, президентов Авраама Линкольна и Джона Ф. Кеннеди и премьер-министра Израиля Ицхака Рабина. Если сосредоточить внимание только на единичных «попаданиях» и игнорировать миллионы «промахов», то покажется крайне маловероятным, что они возникли случайно, что и делает их такими примечательными. Однако стоит оценить и осознать огромное количество возможных комбинаций, и становится ясно, что вероятность встретить «осмысленные» сочетания символов очень высока (почти неизбежна), и это устраняет необходимость в любой другой причине их появления. Все, что произошло, – это то, что одно событие из миллиона наблюдалось после просмотра одного миллиона сочетаний.

Научная практика требует тщательной проверки наблюдений методами, которые, как известно, уменьшают вероятность ошибки. Напротив, те, кто ищет подмигивания и т. п., предпочитают подходы, увеличивающие влияние ошибок. Книга «Библейский код» стала бестселлером, а научные дебаты и исследования, опровергающие книгу, малоизвестны и непонятны широкой публике. Более того, несмотря на решительное опровержение ученых, продолжение «Библейского кода» также стало бестселлером. К моему глубокому удивлению, некоторые истолковали выводы Брендана Маккея как указание на то, что тайные послания действительно можно найти в Моби Дике (в дополнение к Библии), а не как демонстрацию глупости подхода в целом. Что ж, по крайней мере, это предположение поддерживает логическую целостность за счет вызова вспомогательных гипотез (например, автор «Моби Дика» Герман Мелвилл может предсказывать будущее). Однако базовая гипотеза все еще не выдерживает критики и игнорирует известные источники ошибок в пользу фантастического, а не рационального.

Обнаружение ложной корреляции из-за ошибки извлечения данных

Если события действительно коррелированы, то есть они случаются вместе чаще, чем это предсказывает теория вероятности, то будет справедливо предположить, что они каким-то образом связаны (иначе их появление не было бы связано друг с другом). Ошибки восприятия, упомянутые ранее, могут привести к ошибочному обнаружению причинной связи между вещами, которые только коррелируют, но все же как-то косвенно связаны. Однако если исследовать достаточно много явлений, то корреляции обнаружатся даже между вещами, которые не имеют никакой связи. Это связано с ошибкой пренебрежения статистической базой и ошибкой лотереи.

Можно найти самые разнообразные явления, которые сильно коррелируют друг с другом просто случайно, в силу того, что таких явлений очень много. Например, в процессе, называемом «извлечение данных», компьютерный алгоритм может случайным образом сравнивать всевозможные доступные статистические данные и случайно обнаруживать различные корреляции – не потому, что явления действительно связаны друг с другом, а потому, что набор данных чрезвычайно обширен.

В комической и очень показательной книге на эту тему «Ложные корреляции» Тайлер Виген сообщил о сверхъестественной корреляции между ежегодной смертностью и потреблением простыней и сыра американцами, между потреблением маргарина и количеством разводов в штате Мэн, между удовлетворенностью клиентов вкусом Taco Bell и объемом добычи сырой нефти, а также между потреблением генетически модифицированных соевых бобов и спамом в электронной почте.

Устранение предубеждений и искажающих факторов

Представьте, что вы страдаете бессонницей, которая уже довела вас до изнеможения. Услышав о вашей проблеме, друг говорит вам, что он также страдает от проблем с засыпанием и пьет ромашковый чай, чтобы лучше уснуть. Вы не задумываетесь об этом, но после нескольких бессонных ночей подряд приходите в отчаяние и начинаете пить ромашковый чай перед сном. На следующей неделе вы спите немного лучше, поэтому считаете ромашковый чай хорошим снотворным и рекомендуете его своим друзьям. Вы даже можете поделиться своим опытом в блоге и тем самым побудить сотни других людей попробовать чай.

Но насколько вы уверены, что это благотворное действие чая? Действительно ли чай помогает вам лучше спать, или вы просто наблюдаете эффект регресса к среднему значению? Другими словами, если возникнет обострение бессонницы, то у вас будет больше причин попробовать новые методы лечения. Однако даже без лечения вам со временем полегчает. Поскольку вы больше всего заинтересованы в новом лечении именно тогда, когда проблема наиболее серьезна, вы неизбежно заметите улучшение симптомов после того, как попробуете новое средство. У вас даже нет возможности узнать, действительно ли чай помог или навредил. Вы можете перестать пить чай и посмотреть, вернется ли бессонница, но независимо от того, что произойдет, вы не можете сказать, не вызван ли эффект другими факторами.

Делимся своим жизненным опытом и учимся на опыте других людей – вот как мы обычно ориентируемся в большей части жизни. Такой опыт называется «ограниченным жизненным опытом», потому что он основан на ограниченном опыте, который мы рассказываем другим или услышали от других. Поскольку у каждого человека может быть только один набор переживаний, и он проходит жизнь только один раз, по сути, весь личный опыт по своей природе ограничен. Люди дают показания перед конгрессом, чтобы поделиться своими конкретными жизненными историями и опытом. Прихожане выступают в церковной школе, чтобы поделиться своим личным религиозным опытом с другими. Интернет насыщен историями и опытом отдельных людей.

Facebook, вероятно, является крупнейшим из когда-либо задуманных или созданных инструментов обмена ограниченным опытом. Мы не только слышим истории о том, что происходит с нашими знакомыми и семьями; наши ежедневные новости изобилуют рассказами о том, что происходит с другими людьми. Мы читаем о людях, которые погибли в авиакатастрофе, и поэтому предпочитаем ехать 12 часов до места отпус ка на машине, вместо того чтобы за час долететь на самолете. Это ошибка эвристики доступности, потому что летать на авиалайнере намного безопаснее, чем ездить на автомобиле, но новости делают крайне редкие авиакатастрофы очень «доступными», в то время как об очень распространенных смертях в автокатастрофах сообщается редко и вскользь. Эвристика доступности распространяется на нашу память, и в этом случае не средства массовой информации делают вещи более «доступными» для нашего мышления, а то, как мы запоминаем более примечательные или выделяющиеся в нашем сознании события.

Таким образом, эвристика доступности – это основная когнитивная ошибка человека, которая усугубляет нашу склонность замечать «попадания» и игнорировать «промахи» – нашу склонность сосредоточиваться на числителе дроби и игнорировать ее знаменатель. Возможно, поэтому люди так склонны к ошибкам подобного рода. Наши механизмы предвзятого наблюдения взаимодействуют с нашей социальной конструкцией ограниченного опыта и, наряду с нашим когнитивным предубеждением, с эвристикой доступности. По этим причинам идти против такого мышления противоречит нашей природе и зачастую кажется очень неправильным. Это, безусловно, противоречит здравому смыслу. Целенаправленное выявление ситуаций, где люди склонны делать ошибки, и принятие мер по их компенсации является фундаментальной частью научной методологии. Это также одно из отличий науки от обычного человеческого мышления.

Ограниченность краткосрочными событиями ни в коем случае не является особенностью личного опыта отдельного человека. В 1929 году фондовый рынок Нью-Йорка рухнул, и вскоре последовала Великая депрессия. В 1932 году на волне общественного недовольства подавляющее большинство избирателей проголосовало за Демократическую партию. Президент Рузвельт и конгресс провозгласили ряд политических решений, так называемый «Новый курс». Американская экономика в конечном итоге вышла из депрессии и восстановила свою динамику. Многие экономисты утверждали, что именно гениальный «Новый курс» спас американскую экономику; в конце концов, она ведь действительно восстановилась. Другие говорят, что это просто был регресс к среднему; другими словами, ни одна экономическая депрессия не длилась вечно, и поэтому, что бы ни делал Рузвельт, экономика в конечном итоге выздоровела бы. Действительно, некоторые утверждали, что политика Рузвельта только усугубила ситуацию и что депрессия закончилась бы раньше, если бы Новый курс не был принят.

Другие экономисты заявляли, что конец депрессии положила Вторая мировая война, а вовсе не экономическая политика. Прискорбная реальность ситуации заключается в том, что все теории одинаково согласуются с данными и никто не может обоснованно выделить какую-то одну из них.

Такие же рассуждения справедливы и в отношении недавней Великой рецессии 2008 года; одни считают, что политика президента Обамы помогла, в то время как другие говорят, что она навредила. В любом случае экономика должна была когда-то восстановиться, поскольку рецессия не длится вечно, но вопрос в том, произошло ли восстановление благодаря или вопреки политике президента Обамы.

Сказанное выше не означает, что вы не «испытали» действие ромашкового чая. Вы в самом деле почувствовали, что стали лучше спать. Но как проверить, действительно ли ромашковый чай помогает уснуть? Научный подход состоял бы в том, чтобы найти 1000 человек, страдающих бессонницей одинаковой степени тяжести, и распределить их случайным образом на две группы по 500 человек. Одна группа будет пить ромашковый чай, а другая – искусственный чай(в некоторых случаях слепой эксперимент невозможен, поскольку некоторые люди уже знают вкус ромашкового чая и смогут угадать, к какой группе они принадлежат). Оптимально, если их засыпание будет определяться по некоторым объективным критериям (таким как сканирование мозговых волн), но во многих случаях участники эксперимента сообщают субъективную информацию о том, насколько хорошо, по их мнению, они спали. Чтобы уменьшить предвзятость, ни одна группа не должна знать, какой чай они пьют. Более того, люди, проводящие эксперимент, также не будут знать, какой чай пьет каждая группа, чтобы не оказывать неосознанное влияние на испытуемых или не собирать предвзятые данные. Затем останется сравнить качество сна в двух группах. Никому не по силам провести такой эксперимент самостоятельно; но это стандартная практика в науке. Признано, что, обладая пониманием, основанным на наблюдениях, здесь мы страдаем от проблем индукции – мы не можем быть уверены в том, что происходящее сейчас совпадает с тем, что происходило с вами раньше, и мы не можем быть уверены в том, что изучаемая группа людей отражает ваши собственные биологические особенности. Однако, поскольку мы не можем вернуться в прошлое, сделать 1000 ваших копий и дать половине из вас чай и половине плацебо, этот пробел невозможно устранить полностью.

А как насчет Великой депрессии или Великой рецессии? Поскольку никто не может вернуться в прошлое и ни Великая депрессия, ни Великая рецессия никогда не повторится (в том же обществе, в тех же обстоя тельствах и в особенностях 1929 или 2008 года), мы никогда не узнаем наверняка, что их вызвало и какова была польза от мер, предпринятых впоследствии. Однако это не означает, что нельзя оценивать вопрос, используя более научный подход. В контексте последовательного гипоте тико-дедуктивного вывода можно делать прогнозы и проверять их, собирая и анализируя исторические данные. Например, гипотеза о том, что политика жесткой экономии сработала во время Великой рецессии, предсказывает (при прочих равных), что страны, принявшие меры жесткой экономии, выйдут из рецессии быстрее, чем те, которые этого не сделали. Такой подход намного больше подвержен влиянию других переменных, потому что различия между странами намного глубже и масштабнее, чем различия между людьми, и потому, что рандомизация невозможна. Утверждение, что «все остальные условия равны», здесь является очень натянутым допущением. Другими словами, даже если мы сможем заметить разницу между странами, которые ввели жесткую экономию, и странами, которые ее не применяли, первые могли иметь больший внутренний долг, разные формы правления, разные торговые балансы и т. д. Любой из этих факторов может сам по себе привести к разным результатам. Однако, поскольку они совпали по времени с мерами жесткой экономии, могло возникнуть впечатление, что политика жесткой экономии возымела действие.

Тем не менее проверка исторических предсказаний теории в контексте согласованности гипотетико-дедуктивным мышлением – это более строгий способ оценки идеи, чем поиск ассоциаций в ограниченном описательном опыте.

Устранение неоднозначности путем оценки ошибки

Как научный подход оценивает риск ошибки наблюдения? Сколько доказательств того или иного явления нам нужно, чтобы быть уверенными в том, что наблюдаемое нами явление является реальным, а не случайным? Другими словами, каким образом мы отслеживаем подлинные ассоциации, избегая ложных?

Насколько нам известно, полностью избежать ошибки невозможно. Здесь важен баланс: можно зафиксировать практически все реальные явления, которые можно обнаружить, но также уловить ошибки (например, заметить ассоциации, которых на самом деле нет), или можно уменьшить количество ошибок, но пропустить некоторые реальные явления (другими словами, мы хотим, чтобы наш разум был открыт для опыта, но не настолько открыт, чтобы мозг выпал из головы). Хотя способа достижения идеального баланса не существует, современная теория статистики добилась большого прогресса в определении вероятности ошибки, что дает нам возможность перестроить методику наблюдений под свои приоритеты. Например, в какую цену нам обойдется пропуск существующего явления по сравнению с обнаружением несуществующего, и как мы выбираем критерии наших ошибок в соответствии с нашими ситуативными потребностями? Важность этих оценок невозможно преувеличить, поскольку, хотя мы всегда остаемся в некоторой степени неуверенными, мы можем знать, насколько мы не уверены и насколько вероятно, что мы делаем ошибку. Другими словами, мы можем количественно оценить вероятность возникновения различных типов ошибок, что дает нам гораздо больше возможностей изменять наши действия на основе аргументированных рассуждений, вместо того чтобы прибегать к предположениям, основанным на ограниченных данных.

Вернемся к уже знакомому сценарию подбрасывания монеты. Допустим, вы хотите купить монету для фокусов, которая сделана так, чтобы при каждом броске выпадал орел. Надеюсь, вы фокусник или любитель розыгрышей, а не мошенник, но по какой-то причине вы хотите купить именно такую монету. Продавец в магазине товаров для фокусников показывает вам монету и просит заплатить за нее. Разумеется, перед покупкой монеты вы хотите убедиться, настроена ли монета так, чтобы выпадал орел, как обещано, поэтому вы спрашиваете продавца, можете ли вы сделать несколько пробных подбрасываний монеты, прежде чем платить за нее. После того как вы несколько раз подбросили монету и выпал орел, в какой степени вы можете быть уверены в том, что это не обычная монета, которая случайно упала орлом вверх несколько раз подряд?

Предположим, что вы подбрасываете монету одинаково, правильно интерпретируете результат и что монета не меняет своих свойств с течением времени. При бесконечном числе подбрасываний честная монета будет в 50% случаев выпадать орлом и в 50% случаев – решкой.

Если бы монета на самом деле была честной и невзвешенной, то общая вероятность того, что при двух подбрасываниях выпадет орел, равна 1/2 * 1/2 = ј = 0,25 = шанс 25%. Поскольку подбрасывание монеты не меняет ее свойства, каждое подбрасывание является полностью независимым событием. Распространенным предубеждением является «заблуждение игрока», которое в данном случае будет заключаться в вере в то, что монета с большей вероятностью выпадет решкой, если у нас только что выпал орел. Однако это не так, поскольку каждый бросок является независимым событием; результат любого будущего броска не связан с предыдущими результатами (в других ситуациях вероятность следующего исхода может зависеть от предыдущего исхода (это называется условной вероятностью). Например, шансы вытащить клюшку из колоды карт изменяются после того, как вы вытягиваете каждую карту (при условии что вы не кладете карту обратно), поскольку колода теперь изменилась). Вероятность того, что монета выпадет орлом три раза подряд, равна 1/2 * 1/2 * 1/2 = 1/8 = 0,125 = шанс 12,5%. Точно так же вероятность того, что монета выпадет орлом четыре раза подряд, равна 1/2 * 1/2 * 1/2 * 1/2 = 1/16 = 0,0625 = шанс 6,25%. На следующем шаге вероятность того, что честная монета выпадет орлом пятый раз подряд: 1/2 * 1/2 * 1/2 * 1/2 * 1/2 = 1/32 = 0,03125 = шанс 3,125%.

В табл. 1 показано, как часто настоящая честная монета дает выпадение только орла для данного количества подбрасываний и как часто можно сделать ошибку, заключив, что она нечестная. Следует отметить одну очень важную вещь: вероятность ошибки уменьшается с каждым дополнительным подбрасыванием, хотя скорость уменьшения вначале довольно высока, а затем быстро снижается. При перехо-де от 1 к 2 подбрасываниям частота ошибок снижается с 50% до 25% (уменьшение на 25%), но при переходе от 9 к 10 подбрасываниям мы уменьшаем ошибку весьма незначительно (всего на 0,1%). Итак, если после заданного числа подбрасываний выпали только орлы и вы сделаете вывод, что монета действительно нечестная, то с какой вероят ностью вы ошибетесь?

Таблица 1. Количественная оценка неопределенности посредством определения вероятности

В то время как каждый из нас может выбрать такую вероятность ошибки, с которой лично ему комфортно, в мире профессиональной науки ответ в настоящее время ясен и однозначен. В контексте примера с честной монетой вероятность ошибки составляет 5%. Чтобы понять, откуда взялось 5%-ное отсечение, необходимо рассмотреть происхождение этого определения. Р. А. Фишер был известным статис тиком, который разработал большую часть современных взглядов на статистический анализ исследований. Фишер и выдвинул идею о том, что ошибка 5% в наших результатах достаточно хороша для того, чтобы можно было принять, что наблюдаемая связь реальна (то есть что разница не наблюдалась только случайно, когда реальной разницы не было).

Рассмотрим пример, в котором сравнивались две группы (например, пациенты, получающие новое тестируемое лекарство, и пациенты, получающие старый препарат), чтобы увидеть, дает ли новое лекарство результат, отличный от старого лекарства. В этом примере у группы пациентов, получавших новое лекарство, наблюдалось лучшее лечебное воздействие, чем у пациентов, получавших старое лекарство. Основная проблема заключается в том, что наблюдаемая разница возникла случайно и что в действительности не было никакой разницы между лекарствами (или новое лекарство дало еще худший результат). Фишер и его современники придумали методики, которые приводят к вычислению того, что называется «P-значением». Значение P = 0,05 указывает на то, что наблюдаемая разница будет возникать только в 5% случаев случайно, если на самом деле такой разницы не было (в терминологии статистики это ошибка типа I, или неправильное отклонение нулевой гипотезы). И наоборот, отмеченная разница будет отражать реальную разницу в 95% случаев.

Эта концепция может сбивать людей с толку. Что значит «разница была обнаружена случайно, хотя на самом деле разницы не было»? Как может не быть разницы, если разница наблюдалась? Объяснение состоит в том, что значения P используются для выборок, отражающих большую совокупность данных. Если провести испытание лекарства на 1000 пациентов (500 пациентов, получающих лекарство, против 500 пациентов, получающих плацебо), то обе эти группы представляют собой выборки пациентов, которые страдают этим заболеванием.

Вопрос в том, насколько вероятно улучшение состояния у тех пациентов, которые получают лекарство, по сравнению с теми, кто его не получает, если на самом деле лекарство не принесло пользы, но случайно получилось так, что пациенты, у которых течение болезни облегчилось само по себе, попали в группу, получившую экспериментальный препарат. В таком случае вы заметили разницу в выборке, но нет никакой разницы в генеральной совокупности, из которой вы отбираете выборку, вы просто случайно получили нерепрезентативную выборку.

Существует ряд факторов, которые могут влиять на расчеты значения P, включая степень наблюдаемой разницы, распределение данных, количество пациентов в каждой группе и другие более тонкие характеристики данных. Соответственно, существует множество различных методов расчета значения P с различными допущениями по умолчанию. Чтобы правильно найти количественную оценку неопределенности, нужно использовать метод, который подходит для вашего набора данных. Итак, по словам Фишера, если орел выпадает при каждом подбрасывании, после пятого подбрасывания вы должны купить монету. Это первое подбрасывание, при котором орел выпадает случайно менее чем в 5% случаев (в данном случае в 3,1%).

Так почему же Фишер выбрал значение P = 0,05? Было ли какое-то объективное основание для выбора этого числа? Была ли озабоченность осуществимостью того, сколько событий вы можете наблюдать или насколько большая разница будет значимой? Ответ – нет. Фишер предложил это значение, потому что считал его разумным, и другие статистики и ученые согласились. Со временем критерий P = 0,05 стал стандартом значимости в науке, глубоко укоренился и догматически закрепился в ткани научных исследований. В той мере, в какой это правило соблюдается, оно придает научным наблюдениям объективный характер, поскольку ученым, проводящим исследование, не нужно задумываться, что делает наблюдение «значимым». Ведь значение P = 0,05 было заранее определено как приемлемая мера степени ошибки.

Несмотря на объективный характер заранее определенного и строгого критерия для вывода, который принимается как статистичес ки значимый (реальный) по сравнению с тем, который является незначительным (не принимается), значение P = 0,05, тем не менее, было получено в результате существенно субъективного процесса: Р. А. Фишер предложил его, а остальные согласились. Каковы практические последствия использования значения P = 0,05 в качестве критерия значимости?

Короче говоря, это означает, что не более, чем в 5% случаев мы будем наблюдать явление, когда на самом деле никакого явления нет, или, другими словами, до 1 из каждых 20 наблюдаемых различий между группами не будет «реальным» различием. Я говорю про ошибочное обнаружение причинной связи, которая в действительности не существует (как сказано ранее, ошибка типа I). Однако может возникнуть и обратная ошибка, когда реальная связь существует, но не обнаруживается в собранных данных (часто называемая ошибкой типа II). Существует ряд методов для вычисления вероятности совершения ошибки типа I или типа II с любым заданным набором данных; однако значение P = 0,05 остается «золотым стандартом» для ошибок типа I.

Одно из отличительных преимуществ наличия P-значения 0,05 в качестве «привратника» для важного наблюдения состоит в том, что оно обеспечивает уровень очевидной объективности для научного наблюдения. Эта объективность возникает независимо от субъективного происхождения значения P, равного 0,05, поскольку это общепринятый жесткий критерий, которому научное сообщество строго следует. Однако у этого есть и обратная сторона – тенденция к бинарному, черно-белому мышлению. Рассмотрим ситуацию, когда кто-то тестирует новое лекарство и группа пациентов, получающих это лекарство, чувствует себя лучше, чем группа, получающая плацебо (или одобренное в настоящее время лекарство). В этом конкретном примере значение P для разницы составляет 0,06, что обычно описывается как «статистически незначимое». Для многих ученых и статистиков значение P, равное 0,06, фактически указывает на отсутствие каких-либо различий между группами. Другими словами, никакой разницы не наблюдалось, и группы можно считать идентичными. Этот тип бинарного мышления значительно упрощает формулировку результатов исследований как «научных фактов» из категории «да» или «нет» и позволяет создавать сети убеждений, которые выглядят прочно стоящими на детерминированном фундаменте, без намека на сомнительную вероятность.

Важность принятого «жесткого ограничения» легитимности (значение P = 0,05) действительно невозможно переоценить. Это исключает извечное человеческое стремление изменить цель задним числом и признать открытие как значимое (прискорбная и стойкая человеческая склонность). Однако в то же время кажется близоруким и невежественным игнорировать все выводы и не принимать во внимание их в своем мышлении лишь потому, что они верны только в 94% случаев. Другими словами, рассматривать наблюдаемую разницу со значением P, равным 0,06, как если бы она была такой же, как если бы в данных не было никакой разницы.

На практике при приближении к граничному значению P = 0,05 возникают вполне реальные опасности. Что касается ошибок типа I, это означает, что до 1 из каждых 20 лекарств, которые мы даем пациентам, неэффективно. Другими словами, приблизительно 1 из каждых 20 лекарств, которые мы проверяем на эффективность, будет признано полезным, хотя на самом деле оно бесполезно. Таким образом, теоретически 5% (1/20) лекарств, которые вы можете купить, могут вообще не принести пользы. Некоторые люди обвиняют крупные фармацевтические компании в циничном использовании этой проблемы, в том, что, обладая огромными ресурсами и влиянием, они тестируют 20 случайных лекарств для лечения определенной болезни, зная, что как минимум одно из них будет одобрено для клинического использования в силу случайных колебаний факторов, даже если оно бесполезно. Затем компания будет продавать это лекарство на потенциально крупном и прибыльном рынке и продолжать делать это до тех пор, пока не будет проведено новое исследование, которое ставит под сомнение первоначальный результат, – если такое исследование вообще когда-либо проведут. Это пример использования математического преимущества ошибок типа I.

С менее циничной точки зрения, если кто-то 20 раз проведет эксперимент, в котором нет реальной разницы между группами, то с вероятностью P < 0,05 в одной итерации эксперимента он обнаружит несуществующий эффект. Если отдельный ученый (или лаборатория) затем опубликует эту одну итерацию эксперимента и проигнорирует другие 19, это будет, по сути, недопустимым научным мошенничеством. Однако если 20 лабораторий проводят одно и то же общее исследование (без ведома друг друга), одна лаборатория, в силу стечения обстоятельств обнаружившая значительную разницу, наверняка опубликует свои результаты, а другие лаборатории – нет, поскольку им нечем похвастаться. Поскольку читатели научной литературы будут иметь доступ только к описанию эксперимента, в котором «значительный» эффект был обнаружен, это создаст видимость существенного прогресса в генерации знаний, хотя на самом деле это будет просто случайность. Это может произойти из-за социального явления, которое называется «предвзятостью публикации» или «предвзятостью отчетности». Практикующим ученым хорошо известно, что журналы склонны отдавать предпочтение положительным результатам, а не отрицательным. Поэтому ученые, как правило, не сообщают о неудачных экспериментах, и даже если они это делают, журналы, как правило, не публикуют такие материалы. Таким образом, хотя значение P = 0,05 очень полезно и защищает от серьезных проблем, присущих нормальному человеческому наблюдению, безусловно, оно также может вызвать проблемы.

Предвзятость публикаций и отчетности также может привести к тому, что я называю «уменьшением систематической ошибки повторения». Если первоначальный эксперимент показал разницу между группами со значением P менее 0,05, обычно его повторяют еще несколько раз, чтобы увидеть, была ли разница лишь случайностью с вероятностью 1/20 или она постоянна и воспроизводима с течением времени. Это просто хорошая научная практика. Однако если в первоначальном эксперименте не удается обнаружить существенной разницы, то, как правило, ученые стараются не тратить ресурсы на повторение эксперимента, чтобы исключить, что реальная разница была упущена случайно.

Такое поведение мотивировано (отчасти) затруднениями с публикацией отрицательных результатов, но также, вероятно, общей психологической предвзятостью человека – его склонностью придавать особое значение только очевидным положительным результатам. В любом случае, некоторые важные причинные связи в результате теряются из виду, потому что, когда они случайно упущены, второй раз их не ищут.

Существуют различные реальные ситуации, в которых строгое использование учеными P-значений нанесло реальный ущерб. Одним из примеров может служить разработка лечебных протоколов диализа почек. Многие ретроспективные данные свидетельствуют о том, что увеличение продолжительности диализа привело к увеличению продолжительности жизни пациентов с больными почками. Рандомизированное клиническое испытание для сравнения более длительных и более коротких процедур диализа показало разницу, как и предполагалось, но со значением P = 0,06. Как я говорил ранее, с формальной точки зрения такой результат не считается достоверно обнаруженным, поскольку с вероятностью 1/16 мог возникнуть случайно; поэтому экспериментаторы сделали вывод об «отсутствии разницы». Они действительно заметили разницу в своих данных, то есть одно значение отличалось от другого, но данные не соответствовали пороговому значению 0,05.

Исходя из этого «отсутствия разницы» между более длительными и более короткими схемами диализа, рекомендации по лечению пациентов изменили в сторону сокращения длительности диализа. В целом принятое решение можно сформулировать следующим образом. Данные показывают, что более длительное лечение диализом увеличивает пользу для пациентов; однако вероятность того, что это ошибочный вывод, составляет 6%, и поскольку мы уверены в наличии пользы только на 94%, этого недостаточно, чтобы оправдать более длительное лечение. После внесения этого изменения в лечебный регламент смертность пациентов повысилась. Оглядываясь назад, было признано, что это решение оказалось неверным и, вероятно, стоило здоровья и жизни большому количеству людей. Что стоило этим людям жизни, так это слепое и бездумное следование критерию P = 0,05, без учета более тонкого контекста и соотношения риск/польза от применения такого стандарта.

Для сохранения объективности научных исследований нужно иметь некоторое пороговое значение ошибки, чтобы уверенно сделать вывод, что наблюдаемая связь является «реальной», а не случайной, но имеет значение уровень, на котором мы проводим черту. Конечно, все мы хотели бы иметь самый низкий уровень ошибок в наших наблюдениях, так почему бы не установить значение P = 0,01 или даже 0,0001? К сожалению, проведение экспериментов требует ресурсов, а иногда и огромных ресурсов. Как видно из табл. 1, при определенном значении масштаба (и, следовательно, стоимости) исследование достигает точки уменьшения отдачи от увеличения статистической мощности.

Проведение клинических испытаний лекарств может стоить миллионы долларов, не говоря уже о том, что они оказывают очень заметное (и не всегда благотворное) влияние на жизнь участников. Таким образом, необходимость установить приемлемый для всех уровень допустимой ошибки является обоснованной, хотя и достойной сожаления реальностью. При этом есть некоторые ситуации, когда корректировка приемлемых статистических уровней погрешности действительно необходима.

Например, если кто-то разрабатывает скрининговый тест на инфекцию ВИЧ, то статистический порог положительного срабатывания следует установить максимально низким; другими словами, тест должен выявлять 100% случаев заболевания. За это неизбежно придется заплатить некоторым количеством ложных срабатываний. Однако цена пропуска реальных случаев ВИЧ – скорая смерть для инфицированных пациентов и опасность заражения для окружающих. Стоимость ложных срабатываний тоже не равна нулю, так как они могут вызвать ужасные моральные страдания у тех, кто получит ложноположительные результаты теста, вплоть до потребности в психологической помощи; за положительным результатом должен следовать специальный подтверждающий тест, назначение которого – минимизировать ложноположительные результаты. Почему бы в первую очередь не использовать подтверждающий тест для скрининга? Потому что это дало бы много ложных отрицательных результатов и пропустило бы некоторые случаи.

Практика контролируемых испытаний, повторений и больших размеров выборки частично снижает неопределенность, но никогда не устраняет ее. Статистика может дать количественную оценку остающейся неопределенности. Наука не только понимает и признает, что она будет делать ошибки, но и благодаря статистической теории, о которой шла речь ранее, она может оценить, как часто она будет делать ошибки, и долю ошибок, которые допустимо иметь в отношении конкретных наблюдений. Таким образом, дело не в том, что наука «делает все правильно» на практике; наоборот, наука лучше всех понимает, как часто она будет ошибаться, что дает ей более разумную уверенность и/или скептицизм по поводу своих выводов. Это еще одна причина, по которой вы никогда не найдете для себя в науке той уверенности, которую предлагают другие системы убеждений, поскольку одна из задач науки заключается в том, чтобы уделять особое внимание неопределенности – смело смотреть ей в глаза и определять ее количественно.

Наука может быть вполне уверена в своей неопределенности, и именно на этом она ограничивает (или, по крайней мере, должна ограничивать) уверенность, которую вкладывает в свои утверждения. Этот подход не встречается во многих других системах мышления, которые сосредоточены на отдельных свидетельствах, без оценки вероятности того, что такие свидетельства отражают реальную картину мира или являются просто случайным явлением. Людям может казаться, что многие вещи просто не могли произойти случайно, что они должны быть наполнены смыслом, но это лишь присущее людям искажение восприятия – статис тические методы и анализ помогают нам оценить, в какой степени достоверны наши наблюдения и их интерпретация.

Различие между научной практикой и другими видами наблюдательной деятельности

Простые американцы как группа, по-видимому, в значительной степени доверяют науке как источнику новых технологий, знаний, лекарств и т.д. Действительно, американцы не только пользуются продуктами науки, но и направляют огромные суммы налоговых сборов на финансирование научных исследований. Американцы также твердо верят в паранормальные явления. Согласно опросу Гэллапа 2005 года, трое из каждых четырех американцев верят в паранормальные явления, при этом 41% верят в экстрасенсорное восприятие, 37% полагают, что в домах могут быть привидения, 32% верят в призраков, 26% – в ясновидение, 25% – в астрологию, 21% – в мысленное общение с мертвыми и 21% верят в ведьм.

В поиске границы между научной и ненаучной мыслями полезно сосредоточить внимание на той области, где сталкиваются научная практика и другие системы убеждений. Как я говорил ранее, не существует причин, по которым один подход должен быть заведомо правильным, а другой – нет, но есть фундаментальные различия, которые действительно выглядят принципиальными и непреодолимыми.

Одно из таких глубоких различий,заключается в том, как разные системы убеждений решают проблему ошибочного принятия случайных событий за важные данные наблюдений. Стоимость этого вопроса довольно высока. Американцы тратят огромные деньги на гадалок, экстрасенсов, толкователей карт Таро и другие, более экзотические способы предсказания будущего. Хотя для некоторых это может служить разновидностью развлечения, большинство людей, пользующихся подобными услугами, скорее всего, действительно надеются получить информацию о будущем, в соответствии с которой они могут действовать. Другими словами, они хотят достичь большей способности предсказывать и контролировать, что также является основной целью и назначением науки. Так что мотивации в чем-то схожи, если не идентичны.

Хотели бы вы знать, помогает ли вам лекарство, прописанное врачом, или, наоборот, причинит вам вред? Скорее всего, большинство людей ответят утвердительно на этот вопрос, и именно поэтому существуют медицинские исследования и научные испытания, а Федеральная комиссия по обороту лекарственных средств не позволяет фармацевтическим компаниям выводить лекарства на рынок без проведения контролируемых исследований. Опять же, по мере изучения склонности людей делать ошибки в наблюдениях научная практика изменяет свои правила, пытаясь сгладить последствия таких ошибок. Негативные последствия пренебрежения статистической базой, слепота к отрицательным результатам и систематические ошибки наблюдений смягчаются путем проведения рандомизированных контролируемых испытаний, в которых ни участники, ни исследователи не знают, какая группа что получает. Кроме того, объектом пристального внимания является сам процесс рандомизации. Ученые исследуют различия между группами (кроме экспериментального фактора), чтобы уменьшить или, по крайней мере, понять вероятность совпадения непредвиденных факторов, ведущих к ошибочному результату. Другими словами, позволяет ли рандомизация сформировать группы, где единственное различие, о котором мы знаем, – это изучаемая переменная? Статистика позволяет вычислить четкое значение вероятности ошибки и уровень уверенности в своих выводах, давая точные вероятностные оценки того, что любые воспринимаемые различия вызваны исключительно случайностью или что истинное различие было упущено. Более того, итеративный характер науки таков, что текущие результаты продолжают подвергаться сомнению, так что даже если ошибки сделаны, они, скорее всего, рано или поздно будут исправлены.

Сторонники паранормальных явлений, как правило, не практикуют методы для нейтрализации известных источников ошибок восприятия. Напротив, ясновидящие и предсказатели судьбы ведут себя прямо противоположным образом. Они концентрируются на индивидуальном опыте, делают ничем не обоснованные предсказания, подчеркивают «попадания» и сглаживают или игнорируют «промахи». Ясновидящие и гадалки часто бывают гостями ток-шоу, где они демонстрируют свою сверхъестественную способность читать мысли и предсказывать будущие события. Ряд популярных телешоу и фильмов предоставляют аудитории расплывчатые, странные и трудные для восприятия «чудеса», которые в принципе могут быть ненормальными или паранормальными, но к ним никогда не применяют никакие строгие тесты, по крайней мере не того типа, которые используют для нейтрализации известных источников систематической ошибки. Часто встречается показной псевдонаучный подход. Нам демонстрируют любопытные инструменты для измерения эффектов и проводят некие испытания, похожие на эксперимент; однако никогда нет полного понимания, что именно (если вообще что-то) измеряют эти приборы, и подобные испытания никогда не выполняются таким образом, чтобы уменьшить ошибку или хотя бы дать результаты, которые можно внятно интерпретировать. Конечно, это вписывается в структуру телешоу, которые приносят тем больше денег, чем дольше они могут продолжать представлять такие диковинки. Если на первом же шоу показать, что на самом деле там ничего нет, в остальных шоу будет нечего показывать, и доход иссякнет. По словам Аптона Синклера, «трудно заставить человека что-то понять, когда его зарплата зависит от того, что он этого не понимает».

С 1964 по 2015 год Образовательный фонд Джеймса Рэнди предлагал денежный приз всем, кто сможет проявить паранормальные способности в контролируемых научных условиях. Джеймс Рэнди был театральным фокусником, то есть профессионально дурачил людей для развлечения. Однако он был разочарован тем, что другие использовали аналогичные методы для симуляции паранормальных способностей, и посвятил большую часть своей жизни разоблачению паранормальных способностей. Слово «разоблачение» в данном контексте не имеет уничи жительного значения; скорее, Джеймс Рэнди просто применил научные методы к утверждениям о паранормальных явлениях. В рамках своей деятельности он учредил премию Randi Prize, которая начиналась с 1000 долларов, но в итоге выросла до 1 миллиона долларов; несмотря на огромную сумму, на эту премию никогда не претендовал ни один кандидат. Удивительно, но при существующем количестве экстрасенсов и профессиональных гадалок, заявляющих о паранормальных способностях, за эти годы не нашлось реальных претендентов, хотя можно предположить, что этим людям не помешал бы дополнительный доход в размере 1 миллиона долларов.

Как правило, кандидат на приз от Фонда Рэнди подвергался «предварительному тесту», в ходе которого его просили сделать ряд предсказаний (в контексте любых паранормальных способностей, которыми он якобы обладает), а затем частоту их правильных предсказаний сравнивали со случайным результатом. Насколько мне известно, никто не только никогда не выигрывал приз от Рэнди, но и не прошел предварительный тест. Типичный пример был описан в статье в Guardian Magazine, в которой известный медиум, выступавший в ряде популярных телешоу, прошел предварительную проверку. В этом случае кандидат-экстрасенс должен был продемонстрировать «чтение человека» (описание личности и биографии) для каждого из 10 добровольцев, с которыми он никогда раньше не встречался. Каждый доброволец был одет в странную одежду и сидел спиной к экстрасенсу, чтобы внешний вид добровольца не влиял на описание личности. Каждому добровольцу было разрешено просмотреть все выполненные экстрасенсом опи сания и выбрать наиболее подходящее к личности добровольца.

Если бы ясновидящий обладал какими-либо реальными способностями, можно было бы ожидать, что его описания совпадут с личностями добровольцев чаще, чем сделанные случайно. Также можно было предположить, что хотя бы для одного добровольца по чистой случайности найдется подходящее описание. Но в данном случае с личностями добровольцев не совпало ни одно описание – полный провал экстрасенса.

Компонент научной практики, который использовался в тестах Рэнди, состоял в том, чтобы полностью лишить экстрасенса подсказок и данных – любой информации о субъекте, которую можно было наблюдать с помощью обычных органов чувств. Другими словами, если вы утверждаете, что существует способность ясновидения, тогда просто изолируйте канал ясновидения, исключив другие источники информации; таким способом, как я говорил ранее, наука пытается нейтрализовать искажающие факторы, которые могут создавать видимость причинной связи, когда ее нет. Многие случаи «ясновидения», разоблаченные Джеймсом Рэнди за долгие годы, были откровенным и преднамеренным обманом; однако можно предположить, что другие психические аномалии восприятия (возможно, даже большинство из них) на самом деле являются примерами естественных ошибок человеческого восприятия. Другими словами, экстрасенсы могут искренне полагать, что у них действительно есть экстрасенсорные способности; однако они не подозревают о наличии у подсознания сигналов, которые дают им возможность делать, казалось бы, удивительные прогнозы, которые они затем сами же и «подтверждают», используя естественные человеческие предубеждения.

Например, известно, что многие экстрасенсы обладают навыком так называемого «холодного чтения» (набор навыков и приемов, которые применяют экстрасенсы, чтобы создать видимость, что они знают о человеке больше, чем есть на самом деле). Экстрасенс может делать предположения, исходя из возраста, пола, внешности и манер испытуемого. Неправильные догадки игнорируются, но правильные догадки подтверждаются субъектом, а затем развиваются экстрасенсом, что приводит к получению все большего и большего количества информации. Однако без таких подсказок экстрасенсорные способности исчезают. Джеймс Рэнди продемонстрировал эту проблему с ошеломляющими подробностями в интервью, которое он однажды провел с гадалкой и ее клиентом, причем оба считали, что гадалка может читать мысли клиента, поскольку способна получать информацию, которую она не могла бы иначе узнать. Клиент гадалки отметил, что она правильно угадывала имена многих людей в его жизни. Он вел магнитофонную запись сеанса, которую предоставил Джеймсу Рэнди для анализа. После анализа выяснилось, что гадалка на самом деле называла большое количество имен, целых 37, в том числе: Аллан, Альфред, Алиса, Энн, Билл, Чарли, Колин, Конни, Дэвид, Деррик, Эйлин, Эллен, Флори, Фрэнк, Фред, Джордж, Джим, Джо, Джон, Карен, Кэтрин, Кевин, Лилиан, Лиза, Лиз, Линн, Марк, Мэри, Мэй, Майкл, Роб, Рон, Ширли, Сидни, Стэнли, Сид и Стив. Из них всего девять были определены как «попадания», поскольку имели особое значение для клиента. Однако этим именам соответствовали сын, квартирант, брат, племянник, приемный племянник, дедушка, сослуживец, двоюродный брат и соседская собака.

Экстрасенс отверг эту критику, ответив, что можно анализировать все, что угодно, но клиент ясно чувствовал, что для него эти имена имеют смысл. Если я дал вам список из 37 популярных имен и считаю за «попадание», если имя соответствует кому-либо, кого вы знали в своей жизни (родственники, друзья, знакомые и домашние животные), то будет много «попаданий» исключительно по случайности. Сколько из этих имен связано с кем-то значимым в вашей жизни? То, что эти случайные совпадения были значимыми для клиента, больше говорит о его восприятии, чем о каком-либо ясновидении. Я думаю, мы должны признать, что и клиент, и экстрасенс твердо верили, что имело место ясновидение, но эта вера была вызвана предвзятостью – склонностью замечать вещи, которые совпадают с ожиданием, и игнорировать все остальное.

Что несомненно правда, так это то, что и экстрасенс, и клиент действительно испытали ясновидение. Другими словами, они воспринимали то, что считали убедительным доказательством ясновидения, и «чувствовали», что это имеет значение. То, что они чувствовали, не является предметом спора, но спорным является вопрос – отражают их чувства искаженное восприятие или реальное явление. Судя по всему, в данном случае это была добросовестная, непреднамеренная предвзятость, вызванная ошибками человеческого восприятия, и все люди, включая врачей и профессиональных ученых, подвержены таким предубеждениям. Именно поэтому наука разработала методологический подход к нейтрализации известных источников человеческих предубеждений и ошибок – метод, который использовал Джеймс Рэнди.

Вернемся к случаю с экстрасенсом из статьи в The Guardian, который был лишен возможности говорить с добровольцами и сразу утратил экстрасенсорные способности. Важно отметить, что экспериментаторы приложили много усилий для устранения ряда потенциальных систематических ошибок в методике эксперимента, наборе субъектов и условиях исследования Рэнди. Что еще более важно, кандидат в экстрасенсы участвовал в обсуждении условий и согласился, что условия были справедливыми и подходящими. Как это не раз бывало, через некоторое время после испытания кандидат в экстрасенсы написал в Фонд Рэнди, объясняя, что план эксперимента повлиял на субъектов, сделав их «не свободными для связи с Духом» и, таким образом, нарушив нормальные способности экстрасенса. Так что же произошло в этом случае?

Этот вид проверки утверждений полностью подпадает под простую проверку подлинности самого наблюдения. Истинность утверждения о наличии явления не зависит от понимания механизма, наличия теории или знания чего-либо о причине. Утверждения о явлении – это просто сообщения о том, что наблюдение является правильным, что вещь или эффект действительно существует. Как внутри науки, так и вовне ее постоянно делаются странные или неправдоподобные утверждения. Принципиальная разница заключается в том, как потом поступают с такими утверждениями. В случае с экстрасенсом и вызовом Фонда

Рэнди отдельное утверждение (подтвержденное множеством наблюдательных свидетельств) было подвергнуто строгому научному исследованию и провалилось. Затем кандидат выполнил классическую подгонку критерия, заявляя, что определенные элементы теста предотвращают возникновение феномена. Люди, утверждающие, что обладают экстрасенсорными способностями, часто говорят, что «скептическое тестирование» или даже процесс наблюдения будет подавлять их способности, создавая «негативную энергию». Кажется, что их способности работают, только когда их не проверяют.

Часто, как это было в данном случае, элементы испытания, против которых выдвигается возражение, необходимы для того, чтобы испытание оставалось научно обоснованным. Что касается рабочей модели науки, было сделано утверждение, доказательства не подтвердили его, а затем была выдвинута вспомогательная гипотеза, чтобы спасти это утверждение; в частности, что применение научного метода само по себе влияет на это явление. Подобное возражение по существу делает утверждение непригодным для проверки стандартными научными методами. Это никоим образом не делает утверждение недействительным; с научной точки зрения нет причин, по которым «отрицательная энергия» испытания не могла бы помешать эффекту, пока мы не доказали обратное.

Однако теперь мы имеем дело с утверждением, которое невозможно проверить с помощью научных методов и подходов. Такие утверждения просто не являются «предметом науки» и не могут быть ей оценены. Это вписывается в наше текущее определение того, что такое наука и чем она отличается от других подходов к объяснению мира. Научный подход старается максимально использовать способы смягчения или устранения последствий известных ошибок восприятия. Чем больше мы знаем об ошибке, тем больше способов у нас есть для ее устранения. Когда утверждения о паранормальных явлениях оказываются непроверяемыми с помощью научных методов, они не могут быть предметом внимания науки, и это одно из оснований для проведения границы между наукой и ненаукой.

Самообман и искажение восприятия в большой науке

Вряд ли читатели сильно удивлены выводом, что утверждения о паранормальных явлениях при детальном рассмотрении оказываются следст вием ошибок восприятия, создающих иллюзию ясновидения. Однако менее очевидно, что аналогичная ситуация периодически возникает в «точных науках» – даже в физике, которую часто называют «самой точной» из наук.

Конец 1800-х годов был временем новых взрывных открытий в физике – ультрафиолетовое излучение, рентгеновские лучи, радиоактивность и электроны. В 1903 году известный и прекрасно образованный физик по имени Проспер-Рене Блондло дополнил эту цепочку открытий, объявив о новой форме излучения, которую он назвал «N-лучи». Эти лучи обнаруживали при помощи регистрации изменения яркости искр с помощью специального прибора. Характерные вспышки можно было зафиксировать на фотопластинках. Наблюдения Блондло были быстро воспроизведены другими учеными, в результате чего было опубликовано около 300 отчетов более чем от сотни ученых, которые обнаружили N-лучи, исходящие от почти всех веществ и даже живых существ. Однако главный ключ к разгадке природы N-лучей заключался в наблюдении, что они не испускаются некоторыми металлами или свежераспиленной древесиной. Открытие N-лучей было настолько важным, что другие физики, наблюдавшие аналогичное явление, заявили о своем открытии, и пришлось собрать специальную комиссию, чтобы определить приоритет открытия.

Со временем возникла проблема при изучении N-лучей, потому что некоторым физикам было очень трудно их наблюдать. Конечно, известно, что это часто происходит в науке, поскольку особенности экспериментальных условий или конструкции приборов могут значительно различаться. Чтобы регистрировать некоторые природные явления, нужны очень точные и чувствительные приборы, и, если они настроены неправильно, вы можете упустить важную деталь в своих наблюдениях. Различия в том, как ученые настраивают и применяют свое оборудование, могут привести к большим расхождениям в наблюдении одного и того же явления, даже если объект наблюдения действительно существует. Это понимание может быть важным источником новых знаний, поскольку понимание деталей, необходимых для наблюдения чего-либо, может дать ключ к разгадке его свойств.

Что касается N-лучей, большинство из тех, кто мог наблюдать и изучать их, были французскими физиками, тогда как те, кто не мог, были в основном немцами или англичанами. Скорее всего, это было связано с методологическими различиями и недопониманием. Однако были предложены и другие объяснения. В соответствии с методикой внесения вспомогательных гипотез для восстановления согласованности между теорией и наблюдением некоторые французские физики выдвинули вспомогательную гипотезу о том, что в результате эволюции глаза немцев утратили способность воспринимать эффекты N-лучей, в то время как глаза французов сохранили ее. Оглядываясь назад, можно предположить, что главную роль в этом объяснении сыграли национализм и патриотизм, когда французские физики защищали и отстаивали научную доблесть своих соотечественников, и наоборот. Утверждение, что французские глаза могут видеть то, чего не могут видеть немецкие глаза, сегодня кажется смешным и абсурдным; однако оно не выходит за рамки известной биологии человека. Если есть люди, которые не могут видеть определенные цвета, и это может быть унаследованной чертой, так почему бы некоторым людям не страдать слепотой в отношении N-лучей?

Несмотря на трудности в обнаружении N-лучей, многие ученые смогли наблюдать это явление. Были изготовлены фотопластинки с использованием хорошо описанных методов, которые использовались для обнаружения и документирования других типов излучения, ясно показавшие существование N-лучей. Изучение и наблюдение N-лучей не ограничивалось лабораториями физиков; напротив, проводились публичные демонстрации, на которых «многие в аудитории … очень ясно ощутили эффект и выразили свое удовольствие возгласом восхищения». Итак, что же делать дальше с N-лучами и как их изучать?Журнал Nature попросил знаменитого физика-экспериментатора Роберта Вуда посетить лабораторию доктора Блондло, чтобы разобраться в проблеме. Честно говоря, доктор Вуд относился к тем, кто открыто сомневался в этом явлении и, вероятно, отправился в лабораторию Блондло с целью дискредитировать N-лучи, но это определенно не является недостатком ученого. Кроме того, журнал Nature издавался в Британии, а не во Франции, и, возможно, имел место некоторый национализм с противоположной стороны. В любом случае, хотя для ученого похвально и уместно исследовать утверждения других ученых с целью опровержения, Вуд все же действовал в некоторой степени неблаговидным и коварным образом.

Например, Вуд говорил на французском и немецком языках, помимо своего родного английского. Однако разговор на протяжении всего визита велся на немецком языке. Вуд притворился, что не умеет говорить по-французски во время своего визита, чтобы его хозяева свободно говорили друг другу в его присутствии вещи, которые, как они думали, он не понимает. Блондло и его коллеги провели для Вуда серию демонстраций эффектов N-лучей. Однако Вуда не убедило то, что ему показали, – он просто не мог различить искры, на которые влияли N-лучи, от искр без такого воздействия. Хозяева лаборатории предположили, что глаза Вуда просто недостаточно чувствительны, чтобы обнаруживать различия, как и предполагалось ранее. Опять же, хотя это кажется абсурдным, существует множество ситуаций, в которых для определения эффекта требуется тренированный взгляд. Хорошо обученный патологоанатом может отличить раковые клетки от доброкачественных, глядя в микроскоп; и если на сетчатку глаз неподготовленного человека попадет аналогичное изображение, он не сможет увидеть различия между клетками, то есть не сможет распознать то, на что смотрит.

Для компенсации своего предполагаемого недостатка Вуд предложил периодически заслонять поток N-лучей своей рукой, а опытные физики из группы Блондло с их острой способностью наблюдать N-лучи будут сообщать, когда детектор станет ярче, а когда – нет. Действительно, хозяева лаборатории сообщали, что периодически то наблюдают, то не наблюдают N-лучи, предполагая, что Вуд двигал рукой, хотя на самом

деле она неподвижно находилась на пути предполагаемых лучей все время. А когда он действительно двигал рукой внутрь и наружу, то «колебания яркости, наблюдаемые, когда я двигал рукой, не имели никакого отношения к ее движениям».

Вуд никогда не утверждал, что Блондло и его группа преднамеренно лгали, и не высказывал мнения, что они совершали мошенничество; напротив, он чувствовал, что его коллеги стали жертвами предвзятости восприятия. В таких случаях, когда люди знают, каким должен быть результат эксперимента, они непреднамеренно увидят то, что ищут.

Кроме того, они могут неосознанно повлиять на результат за счет незначительных изменений в методике эксперимента. Или же они могут выборочно интерпретировать результаты и найти причины для исключения экспериментов, которые «не работают», в то же время принимая те, которые «действительно работают». Что касается четких свидетельств наличия N-лучей, которые Блондло и его коллеги получили с помощью фотопластинок, разумеется, они не были продуктом предвзятого отношения, поскольку различия были очевидны для любого, кто их видел, а пленка не может быть предвзятой. Действительно, изображения поначалу озадачили Вуда в связи с заявлением о том, что он не может воспринимать N-лучи, поскольку различия в изображениях на фотопластинках, которые он видел, были настолько заметными, что он не мог смириться с тем, что его глаза не улавливают столь выраженный эффект. Вуд предположил, что, зная, какие эффекты должны были наблюдаться, экспериментаторы непреднамеренно экспонировали пластины дольше или под более прямым углом и тем самым генерировали ожидаемые результаты, хотя на самом деле N-лучи никак себя не проявляли.

Вуд продолжил свои детективные уловки и без ведома хозяев в Нанси удалил кварцевую призму из аппарата для регистрации N-лучей. К этому времени Блондло значительно усовершенствовал прибор с момента своего первого наблюдения, и призма должна была фокусировать N-лучи на детекторе. Таким образом, призма являлась обязательным компонентом для работы прибора, и можно было предсказать, что последующие эксперименты потерпят неудачу, если необходимая призма будет удалена. Однако сотрудники лаборатории Блондло получили те же самые наблюдения эффектов N-лучей, о которых они сообщали все время. По-видимому, это стало последней каплей для доктора Вуда, убедившей его, что история с открытием N-лучей закончилась одним большим фиаско.

Доктор Вуд сообщил в Nature, что N-лучи были плодом воображения и что те, кто изучает N-лучи, видели именно то, что ожидали увидеть; другими словами, они стали жертвами предвзятости восприятия. Этот отчет не разрешил проблему полностью, так как остались ученые (включая Блондло), которые продолжили изучать N-лучи еще долгие годы; однако становилось все более очевидным, что в ситуациях, исключающих систематическую предвзятость восприятия, N-лучи не удается обнаружить. Будучи итеративной и самокорректирующейся, научная практика исправила ошибку и устранила предвзятость восприятия.

Ученые и экстрасенсы не лишены человеческих недостатков и подвержены предвзятости восприятия (также называемой эффектом ожидания наблюдателя или эффектом ожидания экспериментатора). Такое предубеждение может принимать разные формы, но в простейшем случае оно состоит в том, что кто-то замечает только то, что очень хочет увидеть, и не замечает опровергающие результаты. Его также можно описать как подсчет попаданий и игнорирование промахов.

Существует тонкое различие между ситуациями, такими как N-лучи, и упомянутыми ранее примерами поисков красной панды в Роттердаме и «битвы» за Лос-Анджелес. Здесь не ошибаются, принимая одно за другое; скорее, человек неправильно воспринимает связь одного предмета с другим. Предвзятость восприятия возникает даже при полностью точных наблюдениях за объектами природного мира.

В отличие от многих других способов мышления, наука в целом (а также большинство отдельных ученых) прилагает согласованные и целенаправленные усилия для компенсации источников ошибок. В частности, хотя ученые неоднократно демонстрировали, что утверждения о психических и паранормальных явлениях не выдерживают критической проверки, ни претенденты на паранормальные способности, ни их коллеги никогда не проводили подобные проверки. Среди членов сообщества экстрасенсов не принято оспаривать утверждения других экстрасенсов. Напротив, такая критическая проверка – непростительное нарушение этикета. В своем превосходном эссе «Преодолевая пропасть между двумя культурами», ссылаясь на общепринятые нормы культуры Нью-Эйдж, важной частью которой она была, Карла Макларен пишет:

«…оскорбления с переходом на личность считаются примером эмоционального дисбаланса (когда ваши эмоции управляют вами), в то время как глубокий скептицизм считается формой психического дисбаланса (когда вами полностью управляет интеллект). Оба поведения являются серьезным культурным табу, потому что и эмоции, и интеллект считаются проблемными областями психики, которые делают очень мало, но удерживают человека от (предположительно) истинного и возвышенного царства духа».

Напротив, глубокий скептицизм в отношении любых идей – это не просто культурная норма в науке, отказ от такой деятельности под запретом. У меня много коллег-ученых, которых я считаю близкими друзьями, и на наших ежегодных встречах мы подходим к микрофону и пытаемся публично дискредитировать идеи друг друга. Это не следствие плохого воспитания или склочного характера – мы обязаны так поступать. Подобное поведение вплетено в ткань современной науки, а иначе мы не сможем тщательно проверять свои и чужие наблюдения с помощью методов, специально разработанных для компенсации наблюдательных ошибок человека, о которых мы теперь знаем.

Кроме того, в ткань науки вплетено стремление отвергать предыдущие идеи, когда оказывается, что они ошибочны. Признание ошибки может дискредитировать конкретную идею или теорию ученого, но увеличивает доверие к самому ученому – по крайней мере, к этому нужно стремиться. Не могу удержаться от повторения цитаты Карла Сагана:

«…в науке нередки случаи, когда ученые говорят: “Вы знаете, это действительно хороший аргумент; я был неправ”, и они действительно меняют свои убеждения, и вы больше никогда не услышите от них старые аргументы. Это происходит не так часто, как следовало бы, потому что ученые – тоже люди, им трудно расставаться с заблуждениями. Но это происходит каждый день. Я не припомню, когда в последний раз подобное случалось в политике или религии». Конечно, ученые тоже могут быть мелочными, злобными и завистливыми людьми, которые проявляют злорадство и поведение, не вызывающее восхищения. Однако идеал, которого, на мой взгляд, достигают многие, заключается в отсутствии этих достойных сожаления свойств характера и в способности продуктивно работать вместе с теми, с кем мы бываем категорически не согласны, с общей целью разгадать механику природы.

Несмотря на идеалы, не ясно, в какой степени конкретный ученый, будучи человеком, может полностью избежать предвзятости наблюдений и особого отношения к собственным наблюдениям. Но в любом случае, те ученые, которые не сделали заявленное открытие (и, вероятно, меньше им восхищаются), будут менее восприимчивы к ловушке предубеждений. Когда одна научная группа сообщает об открытии, другие группы немедленно приступают к проверке. В некоторых случаях, если группы конкурируют или даже враждуют между собой, они могут чрезмерно скептически относиться к выводам соперников, и возникает аналогичное искажение, только с противоположным знаком: скептики ничуть не меньше склонны к предвзятой вере в опровержение наблюдения, чем те, кто верит в его существование. Конечно, многие люди, не имеющие отношения к науке, тоже тщательно изучают новые идеи и скептически относятся к тому, что им говорят. Однако многие (если не большинство) люди генерируют убеждения, основанные на единичном или небольшом количестве опытов, а затем старательно придерживаются этих убеждений годами, защищая какую-то идею или противодействуя ей. С точки зрения науки, это недопустимая предвзятость, и нужно принимать все возможные меры, чтобы ее компенсировать. Чем больше мы понимаем источники и природу предвзятости человеческого восприятия, тем более развитыми становятся научные методы их устранения.

Наука и ее методы развиваются по мере того, как мы узнаем больше о потенциальных недостатках предыдущих методов. Признание предвзятости наблюдений и наше стремление исправить это – относительно новый компонент современной науки, которого практически не было до недавнего времени. Предвзятость ученых иллюстрирует комический и пугающий пример. Вернемся в древность и вспомним Галена Пергамонского (Элий Гален), возможно, одного из величайших ученых-медиков на Западе, жившего примерно в 129–200 годы.

Гален был ведущим авторитетом, ученым и исследователем в области западной медицины, способствовавшим диагностике и лечению болезней, возможно, в большей степени, чем любой другой современник или предшественник. В отношении лекарства, которое Гален считал эффективным, он писал: «Все, кто пьет это лекарство, выздоравливают за короткое время, за исключением тех, кому оно не помогает, – эти люди умирают. Поэтому очевидно, что лекарство терпит неудачу только в неизлечимых случаях». Безусловно, отличный пример предвзятости наблюдения и односторонней аргументации!

В свое время Гален определенно считался ученым. Тот факт, что сегодня его деятельность не считается достаточно научной, только усиливает аргумент о том, что научная методология – это вещь, которая постоянно развивается, чтобы компенсировать новые источники ошибок по мере того, как мы узнаем о них.

Несколько путей возврата к логической согласованности

В определении науки обычно говорят, что это совокупность наблюдений, вокруг которых строится теория и которые видоизменяются, чтобы соответствовать холодному и беспристрастному арбитру мира природы. Я уже упоминал знаменитые слова Томаса Хаксли: «Вечная трагедия науки: уродливые факты убивают красивые гипотезы». Эта точка зрения, безусловно, полностью соответствует понятию целостного гипотетико-дедуктивного мышления. Однако утверждение Хаксли основывается на том, что «факт» верен.

Когда наблюдения не согласуются с теориями, ученые часто сомневаются в наблюдениях. Только после того, как наблюдения будут соответствовать нынешнему уровню научной проверки, они временно принимаются как вероятные. Точно так же теории рассматриваются только как предварительные «истины» – они всегда подлежат модификации с появлением нового понимания или информации. Поэтому сами наблюдения должны быть гибкими, не как фундамент науки, а как послушная рука, которую можно сгибать и разгибать для поддержания гипотетико-дедуктивной согласованности.

Итак, что же это дает нам при исследовании заявлений о научных знаниях, и чем они могут отличаться от других источников информации? Казалось бы, на практике невозможно построить прочное здание знаний, основанное на безупречном наблюдении за миром природы, поскольку безупречное наблюдение невозможно. Наука не является и не может являться, как представляли великие эмпирики, прямолинейным прогрессом знания, из кирпичей которого мы строим истину, используя наблюдение за миром природы в качестве безошибочного арбитра. Действительно, окружающий мир является высшим арбитром всех научных теорий; однако человеческое наблюдение за миром природы несовершенно, как и наше знание того, каков окружающий мир на самом деле.

В конце концов, современная наука постоянно ищет баланс между теорией и наблюдением, зная, что обе стороны могут быть трагически ошибочными или обманчиво правильными. По словам сэра Артура Эддингтона:

«Но уверены ли мы в достоверности наших наблюдений? Ученые очень любят самонадеянно утверждать, что прежде чем приступать к теории, нужно быть вполне уверенным в фактах наблюдений. К счастью, те, кто дает этот совет, не практикуют то, что проповедуют. Наблюдение и теория лучше всего подходят друг другу, когда они смешиваются вместе, помогая друг другу в поисках истины. Хорошее правило – не слишком доверять теории, пока она не будет подтверждена наблюдениями. Я надеюсь, что не слишком шокирую физиков-экспериментаторов, если добавлю, что также хорошим правилом будет не слишком доверять результатам экспериментов до тех пор, пока они не будут подтверждены теорией».

Даже сегодня найдутся ученые-экспериментаторы, которых идея Эддингтона может шокировать и которые считают, что наблюдения непогрешимы. Я полагаю, что они ошибаются и плохо знают о том, до какой степени неправильными могут быть наблюдения или их интерпретация. Здесь Эддингтон говорит о целостности системы убеждений – о том, что новые наблюдения, которые не соответствуют текущей теории, вполне могут быть правильными, но они тянут за собой нити, связанные с предыдущими наблюдениями и интерпретациями, на которых выстроена текущая теория, и это надо учитывать. Повторяю, что в науке наблюдения и интерпретации нельзя произвольно изменить или отвергнуть только потому, что они не нравятся или не соответствуют теории. Тем не менее наблюдение и интерпретация всегда должны считаться несовершенными в силу особенностей человеческого восприятия.

Ирония здесь в том, что хотя науку часто определяют как знание, основанное на наблюдении, на самом деле именно ненаучные подходы считают наблюдение гораздо более непогрешимым. Вспоминая упомянутые ранее примеры ясновидения и экстрасенсов, можно заметить, что в их системе убеждений охотно принимают даже скудные ограниченные наблюдения как почти абсолютные и не оспаривают их достоверность. Совсем иначе ведут себя ученые, которые разбирают наблюдения на части, чтобы подвергнуть их испытанию скептицизмом. В этом фундаментальное отличие науки от многих других подходов к пониманию мироустройства. В большинстве систем убеждений опыт является важным компонентом. Конечно, наука зависит от опыта, но постоянно и с огромным усердием подвергает его сомнению.

Отрывок из книги Джеймса Цимринга "Что такое наука, и как она работает"

Темы: наука научный подход научный метод философия статистика факты теория вероятностей эвристика

1323

2021.07.25 11:03:15

Наука исправляет склонность людей к ошибкам

Читайте также:

Темы

Статьи

Инфо

Файлы