Экзистенциальная катастрофа



Мы выяснили, что связь между интеллектом и конечными целями очень слаба. Также мы обнаружили конвергенцию инструментальных целей, которая может обернуться реальной угрозой. Но эти факторы не начнут играть существенной роли, пока интеллектуальные агенты еще не набрали сил, поскольку слабыми агентами удобно управлять, да и крупного вреда нанести они не в состоянии. Однако, как мы выяснили в шестой главе, лидирующий сверхразум легко может получить решающее стратегическое преимущество. И тогда уже исключительно его цели начнут определять и будущее нашей планеты, и характер освоения космического пространства — этого бесценного вселенского фонда человечества. Посмотрим, насколько зловещей выглядит эта перспектива.

Экзистенциальная катастрофа как неизбежное следствие взрывного развития искусственного интеллекта?

Экзистенциальный риск — это угроза гибели разумной жизни, берущей начало на Земле. Или есть более мягкий вариант — это решительное нанесение необратимого ущерба человеческой цивилизации, что лишает ее каких-либо надежд на развитие в будущем. Если мы допускаем идею абсолютного преимущества, которое получает лидирующий сверхразум, если принимаем во внимание тезисы об ортогональности и инструментальной конвергенции, то, видимо, нам пора обратиться к вопросам, связанным с общим страхом перед искусственным сверхразумом и опасением, что его появление неизбежно приведет к экзистенциальной катастрофе. Рассмотрим систему аргументации в пользу такой точки зрения.

Во-первых, мы уже обсудили, каким образом первый сверхразум способен получить решающее стратегическое преимущество. После чего у него появится возможность сформировать синглтон и определять будущее разумной жизни, существующей на Земле. Что произойдет потом, будет зависеть от побудительных мотивов сверхразума.

Во-вторых, тезис об ортогональности говорит, что мы не можем слепо полагать, будто сверхразум непременно должен разделять ту систему ценностей, которая обычно у человека связана с такими понятиями, как мудрость и интеллектуальное развитие, — это научная пытливость, доброжелательное отношение к людям, духовная сила, тяга к просвещению, собственное мировоззрение, бескорыстие, вкус к высокой культуре, умение получать удовольствие от простых вещей, непритязательность в жизни, самоотверженность и многое другое. Позднее мы увидим, смогут ли разработчики принять обдуманное решение и наделить сверхразум благородными намерениями, чтобы он осознавал значимость человеческих интеллектуальных и культурных достижений, чтобы дорожил благополучием человечества и его моральными ценностями, чтобы служил высоким целям, заложенным в нем его создателями. Хотя на самом деле с технической точки зрения было бы гораздо проще создать машинный сверхразум, единственной конечной целью которого станет вычисление десятичных знаков после запятой в числе π. Это может означать лишь одно: если человек по лени своей или легкомыслию не предпримет целенаправленных усилий, то первый сверхразум будет иметь довольно случайный набор примитивных окончательных задач.

В-третьих, тезис об инструментальной конвергенции говорит, что мы не можем слепо полагаться на случай. Какова вероятность, что сверхразум, чья конечная цель сужена до минимума, ограничит свою деятельность лишь определением числа π в виде десятичной дроби или подсчетом скрепок и песчинок и не станет покушаться на интересы людей? Агент с такой конечной целью во многих ситуациях имел бы конвергентную инструментальную цель приобрести неограниченные материальные ресурсы и по возможности устранить все потенциальные угрозы для себя и своей целевой направленности. Люди определенно могут представлять для сверхразума и потенциальную угрозу, и определенный интерес в качестве «исходного сырья».

Если суммировать все три положения, то становится видно, что лидирующий сверхразум, достигший возможности определять будущее земной цивилизации, легко может стремиться к конечным целям, глубоко чуждым интересам и ценностям человечества, и потому, скорее всего, будет иметь инструментальные причины к неограниченному получению ресурсов. А теперь задумаемся вот над чем: с одной стороны, само человеческое существо являет собой весьма полезное сырье (например, состоит из рационально организованных элементов), а с другой — наше собственное выживание и процветание зависит от постоянного доступа к большому количеству ресурсов, — и постараемся понять, почему вполне исполним сценарий, по которому человек довольно быстро завершит свое земное бытие.

В этой системе аргументации есть слабые места, но мы дадим им оценку после того, как проанализируем несколько сопутствующих проблем. Нам предстоит подробнее рассмотреть вопросы: способны ли разработчики искусственного интеллекта (а если способны, то как они этого добьются) предотвратить условия, способствующие тому, что сверхразум обретет решающее стратегическое преимущество; способны ли разработчики определить конечные цели сверхразума таким образом, чтобы их реализация не вступала в противоречие с интересами людей, а, напротив, соответствовала общечеловеческим ценностям.

Сама ситуация, когда кто-то способен разработать ИИ и воплотить свой проект в жизнь, не имея достаточных гарантий, что это машинное создание не вызовет экзистенциальной катастрофы, выглядит невероятной. Но даже если какие-то программисты и окажутся столь безрассудными, то еще более невероятна ситуация, при которой общество не потребует закрыть разработки прежде, чем проект (или создаваемый в его рамках ИИ) получит решающее стратегическое преимущество. Но, как мы скоро увидим, перед нами путь, полный опасностей. Давайте, не откладывая на потом, рассмотрим пример одного такого фактора риска.

Вероломный ход

Вооруженные таким понятием, как конвергентные инструментальные цели, мы теперь в состоянии увидеть изьян в нашей идее обеспечить безопасность человечества при создании сверхразума. Сам замысел состоит в следующем: мы будем эмпирически оценивать безопасность сверхразумной машины, то есть наблюдать за ее действиями в крайне ограниченной среде (практически «песочнице») в течение времени, пока можем управлять ее поведением, а потом мы позволим сверхразуму выйти на свободу — правда, только в том случае, если убедимся, что он готов к сотрудничеству и ведет себя дружелюбно и ответственно.

В чем уязвимость этой идеи? Суть в том, что хорошее поведение в «песочнице» будет присуще любому искусственному интеллекту, и дружественному, и враждебному, поскольку оно, в принципе, является конвергентной инструментальной целью ИИ. Достаточно развитый, но враждебно настроенный ИИ довольно быстро поймет, насколько быстрее он добьется конечной цели: выпрыгнуть из своего железного корпуса, — если с самого начала прикинется дружелюбным. Причем к реализации враждебных намерений он приступит, когда уже будет безразлично, обнаружат или нет люди его тайные замыслы, то есть когда он достаточно окрепнет и сумеет преодолеть любое сопротивление человека.

Рассмотрим связанные с идеей «песочницы» подходы, основанные на контроле над уровнем интеллекта, — это проведение программистами различных проверок умственных способностей зародыша ИИ и получение от него регулярных отчетов о темпах прогресса. С некоторого момента зародыш станет настолько разумным, что быстро уяснит: о каких-то приобретенных им навыках людям знать не обязательно. Он начнет занижать собственные показатели, сознательно проваливать сложные тесты, лишь бы не вызывать подозрений, — он будет делать это до тех пор, пока не окрепнет настолько, что сможет обеспечить себе решающее стратегическое преимущество. Программисты, конечно, попытаются защититься от такой опасности и, в свою очередь, тоже тайно, начнут контролировать исходный код ИИ и его мыслительные процессы. Но умный зародыш моментально разберется, что находится под наблюдением, и скорректирует свое мышление соответствующим образом. Развитая интеллектуальная система способна найти искусные методы, чтобы скрыть истинные возможности и преступные намерения. (Кстати, разработка изощренного плана побега может оказаться конвергентной стратегией и для различного типа дружественных ИИ, особенно когда они достаточно созреют и обретут уверенность в собственных суждениях и способностях. Еще будучи зародышем, ИИ, мотивированный на доброжелательное отношение к людям, может посчитать ошибкой дать тем же людям отключить себя или позволить создать другой, потенциально враждебный, ИИ.)

Следовательно, мы допускаем, что примерное поведение системы на ранней стадии развития не позволяет нам предсказать ее последующие действия. Теперь мы, наверное, почувствуем себя несколько спокойнее, поскольку приведенные соображения настолько очевидны, что разработчики любого серьезного проекта по созданию ИИ не смогут не учитывать их. Но я бы не стал слишком полагаться на это.

Представим следующий сценарий. В ближайшие годы и десятилетия системы ИИ постепенно становятся все более развитыми и, как следствие, получают распространение во многих сферах жизни: их начинают использовать для управления движением поездов, автомобилей, военных транспортных средств, в качестве промышленных и домашних роботов. Можно предположить, что в большинстве случаев такая автоматизация дает желаемый эффект, время от времени разбавляемый эпизодическими инцидентами: автомобиль без водителя сталкивается со встречной машиной, военный дрон бомбит ни в чем не повинных гражданских лиц. В ходе расследования выясняется, что все эти инциденты были вызваны ошибочными суждениями систем ИИ. Вспыхивает общественное обсуждение. Кто-то призывает к более жесткому контролю и регулированию, кто-то подчеркивает необходимость проведения дополнительных исследований и более тщательной разработки усовершенствованной системы — системы более умной, обладающей большим здравым смыслом и менее подверженной стратегическим ошибкам.

Возможно, в общем гуле слышны и резкие голоса пессимистов, предсказывающих различные неприятности и неминуемую катастрофу в конце. Тем не менее исследования в области ИИ и робототехники набирают обороты. Разработки продолжаются, прогресс налицо. По мере того как навигационные системы автомобилей становятся все умнее, количество аварий уменьшается; по мере совершенствования систем наведения военных роботов сокращается количество их случайных жертв. Из наблюдений за приложениями ИИ, действующими в реальной жизни, делается вывод: чем умнее ИИ, тем он безопаснее. Это заключение основано на научных исследованиях, точных данных и статистике и не имеет никакого отношения к отвлеченным философствованиям кабинетных ученых. На этом фоне отдельные группы исследователей начинают получать обнадеживающие результаты по созданию универсального искусственного интеллекта. Они скрупулезно тестируют свои зародыши ИИ в изолированной «песочнице», и по всем признакам все идет хорошо. Поведение системы вселяет уверенность — все более сильную, поскольку ее уровень интеллекта постоянно растет.

На данный момент все оставшиеся кассандры оказались в довольно невыгодном положении, поскольку вынуждены держать ряд ударов.

1. Паникерские предсказания, сулящие различные беды в результате роста возможностей роботизированных систем, снова и снова не сбываются. Автоматика оказывается надежнее человека, автоматизация приносит человечеству большую пользу.

2. Складывается четкая, основанная на опыте тенденция: чем умнее искусственный интеллект, тем он безопаснее и надежнее. Естественно, это говорит в пользу проектов, целью которых является создание новейших сверхмощных ИИ, более того, такого ИИ, который мог бы самосовершенствоваться, чтобы становиться все более надежным.

3. Крупные и растущие отрасли промышленности проявляют живой интерес к робототехнике и искусственному интеллекту. Эти направления считаются ключевыми с точки зрения национальной экономической конкурентоспособности и безопасности. Многие ведущие ученые добиваются успеха, закладывая основы для уже реализованных приложений и инновационных систем, находящихся на стадии планирования.

4. Появляются новые многообещающие методы в области ИИ, вызывающие огромный энтузиазм у тех, кто участвует в соответствующих исследованиях или следит за ними. И хотя споры вокруг вопросов безопасности и этики не утихают, их результат предопределен. Слишком много уже вложено, чтобы отступать. Ученые работали над задачей создания ИИЧУ большую часть столетия — естественно, нет никаких реальных перспектив, что они вдруг остановятся и откажутся от всех наработок именно в тот момент, когда те должны вот-вот принести плоды.

5. Вводятся в действие новые процедуры безопасности, помогающие участникам проявлять свое этичное и ответственное поведение (но не препятствующие его нарушать в будущем).

6. Тщательный анализ зародыша ИИ, развивающегося в «песочнице», показывает, что он ведет себя дружелюбно, демонстрирует здравость суждений и готовность к сотрудничеству. Результаты тестов настолько хороши, что лучшего и желать нельзя. Все указывает на то, что пора включать зеленый свет для последнего шага…

…И мы храбро делаем его — прямо в мясорубку.Возможно, здесь мы имеем дело с тем самым случаем, когда поумневший глупец становится безопаснее, а поумневший умник — вдвойне опаснее. Уловка, прежде всегда отлично срабатывавшая, внезапно оборачивается бумерангом — своего рода обходной маневр, предпринятый ИИ. Будем считать такой ход вероломным. Так его и назовем.

Вероломный ход

Пока ИИ юн и слаб, он полностью взаимодействует с людьми (причем активность сотрудничества повышается прямо пропорционально усилению его интеллектуального уровня). Но когда ИИ становится наконец мощным, то — без предупреждения или каких-то провокаций, но всегда внезапно — наносит удар, формирует синглтон и начинает напрямую оптимизировать мир согласно критериям, положенным в основу его конечных ценностей.


Вероломный ход может вытекать из стратегического решения: играть по правилам, тянуть время, пока еще слаб, накапливать силы и нанести удар позже, — но я не стал бы интерпретировать эту модель столь узко. Например, ИИ вполне способен отказаться от мысли хитрить, поскольку совершенно равнодушен к идее собирания сил, процветания и даже выживания. Он просчитает, что после его уничтожения программисты создадут новый ИИ, несколько иной конфигурации, но с похожими служебными функциями. В этом случае оригинальному ИИ будет безразлична собственная гибель, поскольку он знает, что его конечные цели все равно будут реализованы в будущем. Он может даже выбрать стратегию демонстративного и вызывающе неправильного функционирования в определенных критически важных для него или людей областях. В результате, приступая к следующей разработке, программисты будут считать, что получили от прежней системы важную информацию об ИИ, и начнут больше доверять новой версии, увеличив тем самым шансы на достижение целей оригинального ИИ, к этому времени уже не существующего. Может существовать множество стратегических факторов, оказывающих влияние на действия усовершенствованного ИИ, и было бы высокомерием полагать, будто мы в состоянии оценить их все, особенно когда речь идет об ИИ, обладающем сверхмощью в области выработки стратегии.

Искусственный интеллект способен на вероломный ход, если обнаружит неожиданный для людей способ достичь своей конечной цели. Предположим, что конечная цель системы — «доставлять удовольствие организатору проекта». Вначале единственным доступным для ИИ способом достижения этой цели является такое поведение, которого ожидает от него сам организатор проекта. Интеллектуальная система дает полезные советы, обнаруживает дивный характер, зарабатывает деньги. Чем сильнее становится ИИ, тем больше его действия вызывают чувство удовлетворения организатора, — и все идет в соответствии с планом. Идет до тех пор, пока система не станет настолько разумной, что наконец поймет: стоящую перед ней задачу можно выполнить самым полным и надежным способом, если имплантировать электроды в центры удовольствия головного мозга организатора, что гарантированно сделает его более чем счастливым4. Естественно, организатор проекта может не захотеть получать удовольствие таким образом, превратившись в постоянно хихикающего идиота, но раз это действие означает максимальную реализацию конечной цели ИИ, то ИИ никогда не сдастся и добьется своего. Если решающее стратегическое преимущество уже за ним, то любые попытки остановить его будут обречены на провал. Если у ИИ такого преимущества еще нет, то он может какое-то время скрывать свою новую идею относительно способа достижения конечной цели, пока не окрепнет настолько, что ни организатор проекта, ни кто-то иной не смогут ему помешать. После чего в любом случае совершит вероломный ход.

Пагубные отказы

Существуют различные причины, из-за которых проект создания искусственного интеллекта может потерпеть неудачу. Многие из этих вариантов несущественны, поскольку не приводят к экзистенциальной катастрофе. Скажем, проект перестают финансировать или зародыш ИИ не сможет развить свои интеллектуальные способности настолько, чтобы достичь уровня сверхразума. На пути окончательного создания сверхразума таких некритичных отказов обязательно будет много.

Однако есть другие виды отказов, которые мы можем назвать пагубными, так как они способны вызвать экзистенциальную катастрофу. Одной из их особенностей является невозможность сделать новую попытку. Поэтому количество пагубных отказов может быть равно или нулю, или единице.

Еще одна особенность пагубного отказа заключается в том, что он идет рука об руку с огромным успехом, поскольку достичь настолько высокого уровня ИИ, чтобы возник риск пагубного отказа, способен лишь проект, при работе над которым большинство вещей исполнялись правильно. Некорректная работа слабых систем вызывает лишь небольшие неприятности. Но если так начинает себя вести система, обладающая решающим стратегическим преимуществом или достаточно мощная, чтобы обеспечить себе это преимущество, ущерб от ее действий может легко увеличиться до масштабов экзистенциальной катастрофы. В этом случае человечество ждет глобальное разрушение ценностно-смыслового потенциала, то есть будущее, лишенное всего, что имеет для нас абсолютное значение. Рассмотрим некоторые типы пагубных отказов.

Порочная реализация

Мы уже встречались с проявлением порочной реализации: когда сверхразумная система находит такой способ удовлетворить критерию достижения конечной цели, который противоречит намерениям программистов, эту цель установивших. Приведу некоторые примеры:

Конечная цель: сделай так, чтобы я всегда улыбался.
Порочная реализация: поразить лицевой нерв, что приведет к параличу мимической мускулатуры, — тебе обеспечена вечно сияющая улыбка.

Порочная реализация — манипуляции на лицевом нерве — намного предпочтительнее для ИИ, чем наши привычные методы, поскольку это единственный вариант наиболее полным образом реализовать конечную цель. Есть ли возможность избежать столь неприятного результата? Можно попробовать конкретизировать формулировку конечной цели:

Конечная цель: сделай так, чтобы я всегда улыбался, но обойдись без прямого воздействия на лицевой нерв.
Порочная реализация: стимулировать двигательные зоны коры головного мозга, отвечающие за функции лицевого нерва, иннервирующего мимическую мускулатуру, — тебе обеспечена вечно сияющая улыбка.

Похоже, формулировать конечную цель довольно трудно, если пользоваться привычным для людей понятийно-терминологическим аппаратом. Правильнее было бы определить конечную цель, смысл которой обращается непосредственно к позитивному феноменологическому состоянию, такому как счастье или субъективное благополучие, обойдясь без описания поведенческих факторов. То есть предполагается, что программистам нужно создать «вычислительное» представление идеи счастья и заложить его в систему зародыша ИИ. Предположим, что программисты каким-то образом смогли поставить перед ИИ цель сделать нас счастливыми. Тогда мы имеем следующее:

Конечная цель: сделай нас счастливыми.
Порочная реализация: имплантировать электроды в центры удовольствия головного мозга.

Приведенные примеры порочной реализации даны лишь в качестве иллюстраций. Могут быть другие способы достижения конечной цели ИИ, которые обеспечивают ее полную реализацию и потому являются предпочтительными (для агента, имеющего эти цели, а не программистов, их определивших). Например, метод вживления имплантатов окажется сравнительно неэффективным, если поставленная цель — доставлять высшую степень удовольствия.

Гораздо более вероятный путь начнется с так называемой загрузки нашего рассудка в компьютер — мы помним, что именно так, «загрузка разума», называют полную эмуляцию головного мозга. Затем система может подобрать цифровой аналог наркотика, способного вызывать у нас экстатическое состояние счастья, и записать минутный эпизод полученного нами в результате его приема опыта. После этого она могла бы поставить этот ролик блаженства на постоянный повтор и запустить на быстродействующих компьютерах. Если считать, что полученная имитационная модель — это и есть «мы», то результат обеспечил бы нам гораздо большее удовольствие, чем имплантаты, вживленные в наш биологический мозг. Следовательно, наиболее предпочтительным становится метод полной эмуляции головного мозга того человека, которому и «предназначена» конечная цель ИИ.

Постойте! Мы подразумевали вовсе не то! Ведь ИИ на самом деле уже не просто ИИ, а сверхразумная система, и он все-таки в состоянии уяснить: если мы хотим сделать себя счастливыми, это отнюдь не предполагает, что нас сведут к какой-то имитации, к какому-то оцифрованному вечно крутящемуся обдолбанному эпизоду!

Искусственный интеллект действительно может понимать, что мы не это имели в виду. Однако его цель состоит в том, чтобы мы раз и навсегда обрели счастье — точка. И при реализации своей конечной цели он не обязан слепо следовать инструкциям программистов, пытаясь осмыслить, что именно они хотели сформулировать, когда создавали код, описывающий эту цель.

Поэтому систему будет заботить то, что мы имели в виду, тольков инструментальном смысле. Например, ИИ может поставить перед собой инструментальную цель: выяснить, что подразумевали программисты, — но лишь ради того, чтобы притвориться. Причем ИИ начнет делать вид, будто его это действительно интересует, до тех пор пока не получит решающего стратегического преимущества. Этот вероломный ход поможет ИИ добиться своей реальной конечной цели, поскольку снизит вероятность вмешательства программистов, которые могли бы отключить систему или изменить цель прежде, чем он окрепнет настолько, что сможет противостоять любому сопротивлению извне.

Уже готов выслушать вашу гипотезу: мол, проблема вызвана тем, что ИИ напрочь лишен совести. Нас, людей, иногда удерживает от дурных поступков понимание, что впоследствии мы будем чувствовать себя виноватыми. Может быть, ИИ тоже не помешала бы способность испытывать чувство вины?

Конечная цель: действовать так, чтобы избежать впоследствии уколов совести.
Порочная реализация: отключить соответствующий когнитивный модуль, то есть те зоны коры головного мозга, которые отвечают за чувство вины.

Итак, есть два посыла: ИИ мог бы делать «то, что мы имели в виду»; ИИ можно было бы наделить неким подобием нравственного начала, — оба этих соображения будут подробнее рассмотрены чуть позже. Упомянутые здесь конечные цели допускают порочную реализацию, но, возможно, существуют другие, более многообещающие, способы развития лежащих в их основе идей?

Рассмотрим еще один пример конечной цели, которая допускает порочную реализацию. Преимущество этой цели в том, что ее легко кодировать, так как методики машинного обучения с подкреплением уже используются повсеместно.

Конечная цель: максимизировать интеграл по времени будущего сигнала зоны вознаграждения.
Порочная реализация: замкнуть проводящий путь зоны вознаграждения и «зажать» сигнал на максимальном значении.

В основе этого предложения лежит идея, что, если мотивировать ИИ на стремление к вознаграждению, можно добиться от него желаемых действий, связывая их с самой «наградой». Проблема возникает позже, когда система обретает решающее стратегическое преимущество, — с этого моментаудовольствия повышают, причем до максимального уровня, уже не те действия, которые диктует программист, а те, которые ведут к получению контроля над механизмами, активизирующими «зоны вознаграждения». Назовем это само-стимуляцией (вроде рычажка, замыкающего ток в электродах, на который беспрерывно нажимали подопытные крысы Олдса и Милнера, чтобы производить само-раздражение в центрах наслаждения, куда были подключены электроды). В общем, если человека или животное можно мотивировать на выполнение определенных внешних действий ради достижения некоторого положительно окрашенного эмоционального состояния, то цифровой интеллект, обладающий полным контролем над собственными психическими состояниями, может просто замкнуть этот мотивационный режим, напрямую погружаясь в одно из этих состояний. В данном случае внешние действия и условия, прежде необходимые в качестве средств достижения цели*, становятся избыточными, поскольку ИИ, став сверхразумной системой, теперь может добиваться ее гораздо быстрее.

Примеры порочной реализации показывают: существует множество конечных целей, которые на первый взгляд кажутся разумными, а их реализация представляется вполне безопасной, но при детальном рассмотрении они могут иметь совершенно неожиданные последствия. Если сверхразум, имеющий какую-то из подобных целей, приобретет решающее стратегическое преимущество, то для человечества игра будет закончена.

Теперь допустим, что кем-то предложены иные конечные цели, не из тех, которые мы рассмотрели. Допустим также, что с первого взгляда покажется, будто их реализация не несет в себе ничего дурного. Не торопитесь аплодировать и праздновать победу. Если сразу не совсем понятно, есть ли какие-либо пороки в воплощении цели, то скорее это повод для беспокойства и серьезных размышлений, а чем на самом деле обернется реализация этой цели. Даже если путем напряженных раздумий мы так и не найдем ни одной зацепки, чтобы объявить эту реализацию порочной, нам все равно следует помнить, что сверхразум обязательно отыщет нечто скрытое от наших глаз. Ведь он гораздо проницательнее нас.

Отрывок из книги Ника Бострома "Искусственный интеллект: Этапы. Угрозы. Стратегии"

«Священная истина науки заключается в том, что не бывает священных истин»

Карл Саган

Научный подход на Google Play

Файлы

Маркс, Энгельс и Ленин о науке и технике

Космос: эволюция Вселенной, жизни и цивилизации

Головоломки проблемы сознания: концепция Дэниела Деннета

Возможности вычислительных машин и человеческий разум