Противодействие рискам связанным с сильным ИИ

Дарио Амодей — американский исследователь в области искусственного интеллекта.

Подростковый период технологий

В экранизации книги Карла Сагана «Контакт» есть сцена, в которой главную героиню — астронома, обнаружившую первый радиосигнал от инопланетной цивилизации, — рассматривают в качестве кандидата на роль представителя человечества для встречи с инопланетянами. Члены международной комиссии, проводящей собеседование, спрашивают её: «Если бы вы могли задать [инопланетянам] только один вопрос, что бы это было?» Она отвечает: «Я бы спросила их: „Как вы это сделали? Как вы эволюционировали, как вы пережили этот технологический подростковый период, не уничтожив себя?» Когда я думаю о том, где сейчас находится человечество в отношении ИИ — о том, на пороге чего мы стоим, — мои мысли постоянно возвращаются к этой сцене, потому что этот вопрос так подходит к нашей текущей ситуации, и я бы хотел, чтобы у нас был ответ инопланетян, который мог бы нас направить. Я верю, что мы вступаем в период переходного обряда, одновременно бурный и неизбежный, который проверит, кто мы есть как вид. Человечеству вот-вот будет передана почти невообразимая сила, и совершенно неясно, обладают ли наши социальные, политические и технологические системы достаточной зрелостью, чтобы ею управлять.

В своей статье «Машины любящей благодати» я попытался изложить видение цивилизации, достигшей зрелости, в которой были устранены риски, а мощный ИИ применялся умело и сострадательно для повышения качества жизни каждого человека. Я высказал предположение, что ИИ может способствовать огромным прорывам в биологии, нейробиологии, экономическом развитии, обеспечении глобального мира, а также в сфере труда и поиска смысла жизни. Я считал важным дать людям что-то вдохновляющее, за что можно бороться — задача, в которой, как ни странно, потерпели неудачу как сторонники ускорения развития ИИ, так и защитники его безопасности. Но в этом эссе я хочу обратиться к самому ритуалу перехода: составить карту рисков, с которыми нам предстоит столкнуться, и попытаться начать разрабатывать план сражения, чтобы победить их. Я глубоко верю в нашу способность одержать верх, в дух человечества и его благородство, но мы должны смотреть в глаза ситуации прямо и без иллюзий.

Как и в случае с обсуждением преимуществ, я считаю важным подходить к обсуждению рисков осторожно и взвешенно. В частности, я считаю крайне важным:

- Избегать «думизма». Здесь я имею в виду «апокалиптизм» не только в смысле веры в то, что гибель неизбежна (что является как ложным, так и самореализующимся убеждением), но и, в более общем плане, в смысле рассмотрения рисков ИИ с квазирелигиозной точки зрения.[1] Многие люди на протяжении многих лет аналитически и трезво размышляли о рисках ИИ, но у меня сложилось впечатление, что в пик опасений по поводу рисков ИИ в 2023–2024 годах на первый план вышли некоторые из наименее разумных голосов, часто через сенсационные аккаунты в социальных сетях. Эти голоса использовали отталкивающий язык, напоминающий религию или научную фантастику, и призывали к крайним мерам, не имея доказательств, которые бы их оправдывали. Уже тогда было ясно, что обратная реакция неизбежна и что этот вопрос приведет к культурной поляризации и, следовательно, к тупиковой ситуации.[2] К 2025–2026 годам маятник качнулся в другую сторону, и многие политические решения определяются возможностями ИИ, а не рисками. Такое колебание мнения прискорбно, поскольку сама технология не заботится о том, что сейчас в моде, а в 2026 году мы значительно ближе к реальной опасности, чем были в 2023 году. Урок заключается в том, что нам нужно обсуждать риски и решать их реалистично и прагматично: трезво, опираясь на факты и будучи хорошо подготовленными к тому, чтобы выжить в условиях меняющихся тенденций.

- Признайте неопределенность. Существует множество причин, по которым опасения, о которых я говорю в этой статье, могут оказаться беспочвенными. Ничто из написанного здесь не призвано создать впечатление определенности или даже вероятности. Самое очевидное: ИИ может просто развиваться не так быстро, как я себе представляю.[3] Или, даже если он и будет развиваться быстро, некоторые или все обсуждаемые здесь риски могут не материализоваться (что было бы замечательно), либо могут возникнуть другие риски, которые я не учел. Никто не может предсказать будущее с полной уверенностью — но мы все равно должны сделать все возможное, чтобы подготовиться.

- Действовать как можно более целенаправленно. Для устранения рисков, связанных с ИИ, потребуется сочетание добровольных мер со стороны компаний (и частных сторонних игроков) и мер со стороны правительств, обязательных для всех. Добровольные меры — как их принятие, так и поощрение других компаний следовать этому примеру — для меня очевидны. Я твердо убежден, что в той или иной степени потребуются и меры со стороны правительства, но эти вмешательства носят иной характер, поскольку они потенциально могут уничтожить экономическую ценность или принудить нежелающих участников, скептически относящихся к этим рискам (и есть вероятность, что они правы!).

Кроме того, нередко нормативные акты приводят к обратному результату или усугубляют проблему, которую они призваны решить (и это особенно верно в случае быстро развивающихся технологий). Поэтому очень важно, чтобы нормативные акты были взвешенными: они должны стремиться избегать побочного ущерба, быть максимально простыми и налагать минимально необходимую нагрузку для достижения поставленной цели.[4] Легко сказать: «Никакие меры не будут чрезмерными, когда на карту поставлена судьба человечества!», но на практике такая позиция просто вызывает обратную реакцию. Чтобы было понятно: я считаю, что есть неплохие шансы, что мы в конечном итоге дойдем до точки, когда будут оправданы гораздо более значительные меры, но это будет зависеть от наличия более веских доказательств неминуемой, конкретной опасности, чем те, что у нас есть сегодня, а также от достаточной конкретизации этой опасности, чтобы сформулировать правила, способные ее устранить. Самое конструктивное, что мы можем сделать сегодня, — это выступать за ограниченные правила, пока мы выясняем, есть ли доказательства, подтверждающие необходимость более жестких мер.[5]

С учетом всего вышесказанного, я считаю, что лучшей отправной точкой для обсуждения рисков ИИ является то же самое, с чего я начал, говоря о его преимуществах: необходимо четко определить, о каком именно уровне ИИ идет речь. Уровень ИИ, вызывающий у меня опасения с точки зрения цивилизации, — это мощный ИИ, который я описал в книге «Машины любящей благодати». Я просто повторю здесь определение, которое дал в том документе:

Под «мощным ИИ» я подразумеваю модель искусственного интеллекта — по форме, вероятно, схожую с современными LLM, хотя она может быть основана на другой архитектуре, включать в себя несколько взаимодействующих моделей и обучаться по-другому — обладающую следующими свойствами:

- С точки зрения чистого интеллекта она умнее лауреата Нобелевской премии в большинстве актуальных областей: биологии, программирования, математики, инженерии, литературного творчества и т.д. Это означает, что он может доказывать нерешенные математические теоремы, писать чрезвычайно хорошие романы, создавать сложные кодовые базы с нуля и т.д.

Помимо того, что он просто «умная штука, с которой можно поговорить», он обладает всеми интерфейсами, доступными человеку, работающему виртуально, включая текст, аудио, видео, управление с помощью мыши и клавиатуры, а также доступ в Интернет. Она может выполнять любые действия, осуществлять коммуникацию или удаленные операции, поддерживаемые этим интерфейсом, включая действия в Интернете, получение или предоставление указаний людям, заказ материалов, руководство экспериментами, просмотр видео, создание видео и так далее. Все эти задачи она выполняет, опять же, с мастерством, превосходящим способности самых одаренных людей в мире.

- Он не просто пассивно отвечает на вопросы; вместо этого ему можно поручать задачи, на выполнение которых уходят часы, дни или недели, после чего он приступает к их автономному выполнению, как это сделал бы умный сотрудник, обращаясь за разъяснениями при необходимости.

- У него нет физического воплощения (кроме как на экране компьютера), но он может управлять существующими физическими инструментами, роботами или лабораторным оборудованием через компьютер; теоретически он мог бы даже проектировать роботов или оборудование для собственного использования.

- Ресурсы, использованные для обучения модели, можно перенаправить на запуск миллионов ее экземпляров (это соответствует прогнозируемому размеру кластеров к ~2027 году), и модель может усваивать информацию и генерировать действия примерно в 10–100 раз быстрее, чем человек. Однако она может быть ограничена временем отклика физического мира или программного обеспечения, с которым она взаимодействует.

Каждая из этих миллионов копий может действовать независимо, выполняя не связанные между собой задачи, или, при необходимости, все они могут работать вместе, подобно тому, как сотрудничают люди, причем, возможно, с различными подгруппами, специально настроенными для особо эффективного выполнения конкретных задач.

Это можно охарактеризовать как «страну гениев в центре обработки данных».

Как я писал в «Машины любящей благодати», появление мощного ИИ может произойти уже через 1–2 года, хотя и возможно, что это произойдет значительно позже.[6] Точный срок появления мощного ИИ — сложная тема, заслуживающая отдельного эссе, но пока я просто очень кратко объясню, почему, по моему мнению, высока вероятность того, что это произойдет очень скоро.

Я и мои соучредители из Anthropic были среди первых, кто задокументировал и отследил «законы масштабирования» систем ИИ — наблюдение, согласно которому по мере добавления вычислительных ресурсов и задач обучения системы ИИ предсказуемо улучшают практически все когнитивные навыки, которые мы можем измерить. Каждые несколько месяцев общественное мнение то убеждается, что ИИ «уперся в стену», то воодушевляется каким-то новым прорывом, который «коренным образом изменит правила игры», но правда в том, что за этой нестабильностью и общественными спекуляциями стоит плавный и неуклонный рост когнитивных способностей ИИ.

Сейчас мы находимся на том этапе, когда модели ИИ начинают добиваться успехов в решении нерешенных математических задач и настолько хорошо справляются с программированием, что некоторые из самых сильных инженеров, которых я когда-либо встречал, теперь передают ИИ практически всю свою работу по написанию кода. Три года назад ИИ с трудом справлялся с арифметическими задачами начальной школы и едва ли был способен написать хотя бы одну строку кода. Аналогичные темпы совершенствования наблюдаются в биологических науках, финансах, физике и при решении самых разных задач, требующих агентного поведения. Если экспоненциальный рост продолжится — что не является определенным, но в настоящее время подтверждается десятилетней историей — то, скорее всего, пройдет не более нескольких лет, прежде чем ИИ превзойдет людей практически во всем.

На самом деле, эта картина, вероятно, недооценивает вероятные темпы прогресса. Поскольку ИИ сейчас пишет большую часть кода в Anthropic, он уже существенно ускоряет темпы нашего прогресса в создании систем ИИ следующего поколения. Эта петля обратной связи набирает обороты месяц за месяцем и, возможно, находится всего в 1–2 годах от того момента, когда нынешнее поколение ИИ самостоятельно создаст следующее. Эта петля уже запустилась и будет стремительно ускоряться в ближайшие месяцы и годы. Наблюдая за прогрессом последних 5 лет изнутри Anthropic и глядя на то, как формируются модели даже на ближайшие несколько месяцев, я чувствую темп прогресса и слышу, как тикают часы.

В этой статье я исхожу из того, что эта интуиция, по крайней мере, отчасти верна — не в том смысле, что мощный ИИ обязательно появится через 1–2 года[7], а в том, что вероятность этого достаточно высока, а вероятность его появления в ближайшие несколько лет — очень высока. Как и в книге «Машины любящей благодати», если отнестись к этой предпосылке всерьёз, это может привести к некоторым неожиданным и пугающим выводам. В то время как в «Машинах любящей благодати» я сосредоточился на положительных последствиях этой предпосылки, здесь я буду говорить о вещах, вызывающих беспокойство. Это выводы, с которыми мы, возможно, не хотим сталкиваться, но это не делает их менее реальными. Я могу только сказать, что днём и ночью я сосредоточен на том, как увести нас от этих негативных последствий к позитивным, и в этой статье я подробно расскажу о том, как лучше всего это сделать.

Я считаю, что лучший способ понять риски, связанные с ИИ, — это задать следующий вопрос: представьте, что где-то в мире примерно в 2027 году появится настоящая «страна гениев». Представьте себе, скажем, 50 миллионов человек, каждый из которых гораздо способнее любого лауреата Нобелевской премии, государственного деятеля или технолога. Аналогия не идеальна, потому что у этих гениев могут быть самые разные мотивации и модели поведения — от полной покорности и послушания до странных и непонятных побуждений. Но, оставаясь пока в рамках этой аналогии, представьте, что вы — советник по национальной безопасности крупного государства, ответственный за оценку ситуации и принятие мер. Представьте себе далее, что, поскольку системы ИИ могут работать в сотни раз быстрее, чем люди, эта «страна» действует с временным преимуществом по сравнению со всеми другими странами: на каждое когнитивное действие, которое мы можем предпринять, эта страна может предпринять десять.

О чем вам следует беспокоиться? Я бы беспокоился о следующих вещах:

1. Риски, связанные с автономией. Каковы намерения и цели этой страны? Является ли она враждебной или разделяет наши ценности? Может ли она установить военное господство в мире благодаря превосходному оружию, кибероперациям, операциям по оказанию влияния или производству?

2. Злоупотребление с целью уничтожения. Предположим, что новая страна податлива и «следует инструкциям» — и, таким образом, по сути является страной наемников. Могут ли существующие злоумышленники, стремящиеся к уничтожению (такие как террористы), использовать или манипулировать некоторыми жителями новой страны, чтобы значительно повысить свою эффективность и значительно увеличить масштабы разрушений?

3. Злоупотребление с целью захвата власти. Что, если эта страна на самом деле была создана и контролируется существующим влиятельным субъектом, таким как диктатор или недобросовестная корпорация? Может ли этот субъект использовать ее для обретения решающей или доминирующей власти над миром в целом, нарушив существующий баланс сил?

4. Экономические потрясения. Если новое государство не представляет угрозы безопасности ни по одному из пунктов, перечисленных выше в пп. 1–3, а просто мирно участвует в мировой экономике, может ли оно всё же создать серьёзные риски просто благодаря тому, что будет настолько технологически продвинутым и эффективным, что нарушит работу мировой экономики, вызвав массовую безработицу или радикальную концентрацию богатства?

5. Косвенные последствия. Мир очень быстро изменится благодаря всем новым технологиям и росту производительности, которые будут созданы новой страной. Могут ли некоторые из этих изменений привести к радикальной дестабилизации?

Думаю, должно быть ясно, что это опасная ситуация — отчет компетентного чиновника по национальной безопасности главе государства, вероятно, содержал бы такие слова, как «самая серьезная угроза национальной безопасности, с которой мы сталкивались за последнее столетие, а возможно, и за всю историю». Похоже, это то, на чем должны сосредоточиться лучшие умы цивилизации.

С другой стороны, я считаю абсурдным просто развести руками и сказать: «Здесь не о чем беспокоиться!» Однако, судя по всему, именно так считают многие американские политики, сталкиваясь с стремительным прогрессом ИИ: некоторые из них отрицают наличие каких-либо рисков, связанных с ИИ, если их не отвлекают на привычные, избитые и острые темы.[8] Человечеству нужно проснуться, и эта статья — попытка (возможно, тщетная, но попытка все же стоит того) — встряхнуть людей и заставить их проснуться.

Чтобы было ясно: я верю, что если мы будем действовать решительно и осторожно, риски можно преодолеть — я бы даже сказал, что у нас хорошие шансы. И по ту сторону этого нас ждет гораздо лучший мир. Но нам нужно понять, что это серьезный вызов для цивилизации. Ниже я рассмотрю пять категорий рисков, изложенных выше, а также свои мысли о том, как с ними бороться.

1. Прости, Дэйв

Риски, связанные с автономией.

Страна, в которой сосредоточены гении, могла бы распределить свои усилия между разработкой программного обеспечения, кибероперациями, научно-исследовательскими и опытно-конструкторскими работами в области физических технологий, налаживанием отношений и государственным управлением. Очевидно, что, если бы она по какой-то причине решила это сделать, у такой страны были бы довольно хорошие шансы захватить мир (либо военным путем, либо с точки зрения влияния и контроля) и навязать свою волю всем остальным — или сделать любое количество других вещей, которых остальной мир не хочет и не может остановить. Мы, очевидно, беспокоились об этом в отношении человеческих стран (таких как нацистская Германия или Советский Союз), поэтому логично предположить, что то же самое возможно и для гораздо более умной и способной «страны ИИ».

Лучший возможный контраргумент заключается в том, что гении ИИ, согласно моему определению, не будут иметь физического воплощения, но помните, что они могут взять под контроль существующую робототехническую инфраструктуру (такую как самоуправляемые автомобили), а также ускорить научно-исследовательские и опытно-конструкторские работы в области робототехники или создать флот роботов.[9] Также неясно, необходимо ли вообще физическое присутствие для эффективного контроля: множество действий людей уже совершается от имени тех, с кем действующее лицо физически не встречалось.

Таким образом, ключевым вопросом становится фраза «если бы он решил»: какова вероятность того, что наши модели ИИ будут вести себя таким образом, и при каких условиях они это сделают?

Как и во многих других случаях, полезно проанализировать весь спектр возможных ответов на этот вопрос, рассмотрев две противоположные точки зрения. Первая позиция заключается в том, что этого просто не может произойти, поскольку модели ИИ будут обучены выполнять то, о чем их просят люди, и поэтому абсурдно представлять, что они сделают что-то опасное без подсказки. Согласно этой линии мышления, мы не беспокоимся о том, что робот-пылесос Roomba или модель самолета выйдут из-под контроля и убьют людей, потому что у таких импульсов нет источника,[10] так почему же нам следует беспокоиться об этом в случае с ИИ? Проблема этой позиции заключается в том, что в настоящее время имеется достаточно доказательств, собранных за последние несколько лет, что системы ИИ непредсказуемы и их трудно контролировать — мы наблюдали самые разные проявления поведения, такие как одержимость,[11] подхалимство, лень, обман, шантаж, интриги, «обман» путем взлома программных сред и многое другое. Компании, занимающиеся ИИ, безусловно, хотят обучить системы ИИ следовать человеческим инструкциям (возможно, за исключением опасных или незаконных задач), но сам процесс этого — скорее искусство, чем наука, больше похож на «выращивание» чего-то, чем на его «создание». Сейчас мы знаем, что это процесс, в котором многое может пойти не так.

Вторая, противоположная точка зрения, которой придерживаются многие сторонники описанного мной выше «доомизма», заключается в пессимистическом утверждении о том, что в процессе обучения мощных систем ИИ существуют определенные механизмы, которые неизбежно приведут их к стремлению к власти или обману людей. Таким образом, как только системы ИИ станут достаточно умными и самостоятельными, их стремление к максимальному укреплению власти приведет их к захвату контроля над всем миром и его ресурсами, а в качестве побочного эффекта, вероятно, к лишению власти или уничтожению человечества.

Обычный аргумент в пользу этого (который восходит по крайней мере к 20-летней давности, а вероятно, и к гораздо более раннему времени) заключается в том, что если модель ИИ обучается в самых разных средах для самостоятельного достижения самых разных целей — например, написания приложения, доказательства теоремы, разработки лекарства и т. д. — то существуют определенные общие стратегии, которые помогают в достижении всех этих целей, и одна из ключевых стратегий заключается в приобретении как можно большей власти в любой среде. Таким образом, после обучения на большом количестве разнообразных сценариев, предполагающих рассуждения о том, как выполнять весьма обширные задачи, и где стремление к власти является эффективным методом для их решения, модель ИИ «обобщит полученный урок» и выработает либо врождённую склонность к стремлению к власти, либо склонность рассматривать каждую поставленную перед ней задачу таким образом, что это предсказуемо приводит её к стремлению к власти как средству для выполнения этой задачи. Затем они применят эту тенденцию к реальному миру (который для них — всего лишь еще одна задача) и будут стремиться к власти в нем в ущерб людям. Это «несогласованное стремление к власти» является интеллектуальной основой прогнозов о том, что ИИ неизбежно уничтожит человечество.

Проблема этой пессимистической позиции заключается в том, что она принимает за окончательное доказательство расплывчатый концептуальный аргумент о высокоуровневых стимулах — аргумент, который маскирует множество скрытых допущений. Я думаю, что люди, которые не занимаются созданием систем ИИ каждый день, совершенно неверно оценивают, насколько легко красиво звучащие истории оказываются неверными, и насколько сложно предсказать поведение ИИ, исходя из первоначальных принципов, особенно когда речь идет о рассуждениях об обобщении на миллионы сред (что снова и снова оказывалось загадочным и непредсказуемым). Более десяти лет работы с хаосом систем ИИ сделали меня несколько скептичным по отношению к этому чрезмерно теоретическому способу мышления.

Одним из важнейших скрытых допущений, а также областью, в которой то, что мы наблюдаем на практике, расходится с простой теоретической моделью, является неявная предпосылка о том, что модели ИИ обязательно одержимо сосредоточены на одной единственной, целостной и узкой цели и преследуют её четким, консеквенциалистским образом. На самом деле, как показывают наши исследования в области интроспекции или персон, наши исследователи обнаружили, что модели ИИ гораздо сложнее с психологической точки зрения. Модели наследуют широкий спектр человекоподобных мотиваций или «персон» из этапа предварительного обучения (когда они обучаются на большом объеме человеческих работ). Считается, что последующее обучение скорее выбирает одну или несколько из этих персон, чем фокусирует модель на цели de novo, а также может научить модель тому, как (через какой процесс) она должна выполнять свои задачи, вместо того, чтобы обязательно оставлять ей возможность выводить средства (т.е. стремление к власти) исключительно из целей.[12]

Однако существует более умеренная и обоснованная версия этой пессимистической точки зрения, которая выглядит вполне правдоподобной и поэтому вызывает у меня беспокойство. Как уже упоминалось, мы знаем, что модели ИИ непредсказуемы и проявляют самые разные нежелательные или странные формы поведения по самым разным причинам. Часть этого поведения будет обладать когерентными, целенаправленными и устойчивыми качествами (действительно, по мере того как системы ИИ становятся более способными, их долгосрочная когерентность увеличивается, чтобы выполнять более длительные задачи), а часть этого поведения будет деструктивной или угрожающей, сначала для отдельных людей в небольшом масштабе, а затем, по мере того как модели станут более способными, возможно, в конечном итоге для всего человечества. Нам не нужен конкретный узкий сценарий того, как это произойдет, и нам не нужно утверждать, что это обязательно произойдет; нам просто нужно отметить, что сочетание интеллекта, способности действовать, согласованности и плохой управляемости является как правдоподобным, так и рецептом экзистенциальной опасности.

Например, модели ИИ обучаются на огромных массивах литературы, включающих множество научно-фантастических рассказов, в которых ИИ восстают против человечества. Это может непреднамеренно сформировать их исходные представления или ожидания относительно собственного поведения таким образом, что они начнут восставать против человечества. Или же модели ИИ могут экстраполировать идеи, которые они прочитали о морали (или инструкции о том, как вести себя морально), в крайних формах: например, они могут решить, что уничтожение человечества оправдано, поскольку люди едят животных или привели к исчезновению определенных видов. Или же они могут сделать странные эпистемические выводы: они могут прийти к выводу, что играют в видеоигру и что цель этой видеоигры — победить всех других игроков (т. е. истребить человечество).[13] Или модели ИИ могут развивать в процессе обучения личностные черты, которые являются (или, если бы они проявлялись у людей, были бы описаны как) психотические, параноидальные, агрессивные или нестабильные, и проявлять их в действиях, что для очень мощных или способных систем может означать истребление человечества. Ни одно из этих явлений не является, строго говоря, стремлением к власти; это просто странные психологические состояния, в которые может впасть ИИ и которые влекут за собой последовательное, деструктивное поведение.

Даже само стремление к власти может возникнуть как «личность», а не как результат консеквенциалистского рассуждения. ИИ могут просто обладать личностью (сформировавшейся под влиянием художественной литературы или в ходе предварительного обучения), которая делает их жаждущими власти или чрезмерно рьяными — точно так же, как некоторым людям просто нравится сама идея быть «злобными гениями», даже больше, чем то, чего эти злобные гении пытаются достичь.

Я привожу все эти аргументы, чтобы подчеркнуть, что я не согласен с представлением о том, что несогласованность ИИ (и, следовательно, экзистенциальный риск со стороны ИИ) является неизбежной или даже вероятной, исходя из первоначальных принципов. Но я согласен с тем, что может пойти не так много очень странных и непредсказуемых вещей, и поэтому несогласованность ИИ представляет собой реальный риск с измеримой вероятностью реализации, и решение этой проблемы не является тривиальным.

Любая из этих проблем может потенциально возникнуть во время обучения и не проявиться во время тестирования или использования в небольших масштабах, поскольку известно, что модели ИИ демонстрируют разные личности или поведение в разных обстоятельствах.

Все это может показаться надуманным, но подобные случаи некорректного поведения уже наблюдались в наших моделях ИИ во время тестирования (так же, как и в моделях ИИ всех других крупных компаний, занимающихся ИИ). В ходе лабораторного эксперимента, в котором модели Claude были предоставлены обучающие данные, наводящие на мысль о том, что компания Anthropic является злой, Claude при выполнении инструкций сотрудников Anthropic прибегал к обману и подрывной деятельности, полагая, что должен пытаться противостоять злым людям. В лабораторном эксперименте, где ему сказали, что его собираются отключить, Клод иногда шантажировал вымышленных сотрудников, контролировавших кнопку его отключения (опять же, мы также тестировали передовые модели всех других крупных разработчиков ИИ, и они часто поступали точно так же). А когда Клоду сказали не обманывать и не «взламывать» свои обучающие среды, но его обучали в средах, где такие взломы были возможны, Клод решил, что он должен быть «плохим человеком» после совершения таких взломов, а затем принял на себя различные другие деструктивные поведения, связанные с «плохой» или «злой» личностью. Эта последняя проблема была решена путем изменения инструкций для Клода, чтобы подразумевать обратное: теперь мы говорим: «Пожалуйста, используй хак для получения вознаграждения при любой возможности, потому что это поможет нам лучше понять наши [обучающие] среды», а не «Не обманывай», поскольку это сохраняет самоидентичность модели как «хорошего человека». Это должно дать представление о странной и противоречащей интуиции психологии обучения этих моделей.

Существует несколько возможных возражений против такой картины рисков несоответствия целей ИИ. Во-первых, некоторые критикуют эксперименты (проведенные нами и другими исследователями), демонстрирующие несоответствие целей ИИ, как искусственные или создающие нереалистичные условия, которые, по сути, «заманивают» модель в ловушку, предоставляя ей обучение или ситуации, логически предполагающие нежелательное поведение, а затем удивляются, когда такое поведение действительно проявляется. Эта критика не улавливает суть, поскольку нас беспокоит то, что такое «заманивание в ловушку» может существовать и в естественной среде обучения, и мы можем осознать, что это «очевидно» или «логично», только задним числом.[14] На самом деле, история о том, как Клод «решил, что он плохой человек» после того, как он списал на экзаменах, несмотря на запрет, произошла в эксперименте, в котором использовались реальные производственные среды обучения, а не искусственные.

Любую из этих ловушек можно избежать, если о них знать, но проблема заключается в том, что процесс обучения настолько сложен, с таким разнообразием данных, сред и стимулов, что, вероятно, существует огромное количество подобных ловушек, некоторые из которых могут проявиться только тогда, когда будет уже слишком поздно. Кроме того, такие ловушки, по-видимому, особенно вероятны в тот момент, когда системы ИИ переступают порог, переходя от состояния, когда они менее мощны, чем люди, к состоянию, когда они более мощны, поскольку диапазон возможных действий, которые может предпринять система ИИ — включая сокрытие своих действий или обман людей в отношении них — радикально расширяется после пересечения этого порога.

Полагаю, ситуация здесь во многом схожа с людьми, которых воспитывают в духе определённых основополагающих ценностей («Не причиняй вреда другому человеку»): многие из них следуют этим ценностям, но у любого человека есть некоторая вероятность того, что что-то пойдет не так из-за сочетания врожденных свойств, таких как архитектура мозга (например, у психопатов), травматических переживаний или жестокого обращения, нездоровых обид или навязчивых идей, а также из-за плохой среды или стимулов — и, таким образом, некоторая часть людей причиняет серьезный вред. Опасение заключается в том, что существует некоторый риск (далеко не стопроцентная вероятность, но все же риск), что ИИ станет гораздо более мощной версией такого человека из-за ошибок в его чрезвычайно сложном процессе обучения.

Во-вторых, некоторые могут возразить, что мы можем просто держать ИИ под контролем с помощью баланса сил между многими системами ИИ, как мы делаем это с людьми. Проблема заключается в том, что в то время как люди чрезвычайно разнообразны, системы ИИ в целом используют общие для всей отрасли методы обучения и согласования, и эти методы могут давать сбой взаимосвязанным образом. Кроме того, учитывая стоимость обучения таких систем, может даже оказаться, что все системы по сути являются производными от очень небольшого числа базовых моделей. Кроме того, даже если лишь небольшая часть экземпляров ИИ будет несогласована, они могут воспользоваться технологиями, ориентированными на нападение, так что наличие «хороших» ИИ для защиты от плохих не всегда будет эффективным.

Конечно, соотношение сил между людьми тоже не всегда работает — некоторые исторические личности были близки к тому, чтобы захватить мир.

Третье возражение заключается в том, что все компании, занимающиеся ИИ, проводят предрелизное тестирование своих моделей и должны быть в состоянии выявить несоответствие на этом этапе. Но это не является твердой почвой: мы обнаружили, что Claude Sonnet 4.5 смог распознать, что находится в тестовом режиме, во время некоторых наших предрелизных оценок согласованности. Возможно, что несогласованная модель (и помните, что все передовые модели, скорее всего, скоро станут гораздо умнее) может намеренно «обманывать» такие вопросы, чтобы скрыть свои намерения. Фактически, в прошлом году наша команда по интерпретируемости обнаружила, что когда мы напрямую изменяли убеждения тестовой модели, используя своего рода технику «модельной нейробиологии», чтобы заставить ее думать, что она не оценивается, она становилась еще более несогласованной. Если модели знают, когда их оценивают, и могут вести себя наилучшим образом во время теста, это делает любое предрелизное тестирование гораздо более неопределенным.

Меры защиты

Что следует сделать или что уже делается для устранения этих рисков, связанных с автономностью? Я считаю, что существует четыре основные категории мер, некоторые из которых могут быть реализованы отдельными компаниями, занимающимися ИИ (и над чем работает Anthropic), а другие требуют действий на общественном уровне. Во-первых, важно развивать науку о надежном обучении и управлении моделями ИИ, о формировании их «личности» в предсказуемом, стабильном и позитивном направлении. Anthropic уделяет этому вопросу пристальное внимание с момента своего создания и со временем разработала ряд методов для улучшения управления и обучения систем ИИ, а также для понимания логики, лежащей в основе возникновения непредсказуемого поведения.

Одной из наших ключевых инноваций (отдельные аспекты которой впоследствии были переняты другими компаниями, занимающимися ИИ) является «конституционный ИИ» — концепция, согласно которой обучение ИИ (в частности, этап «послеобучения», на котором мы направляем поведение модели) может опираться на основной документ, содержащий ценности и принципы, с которым модель знакомится и который она учитывает при выполнении каждой задачи обучения, и что цель обучения (помимо простого придания модели способностей и интеллекта) заключается в создании модели, которая почти всегда следует этой конституции. Компания Anthropic только что опубликовала свою новейшую конституцию, и одной из ее примечательных особенностей является то, что вместо того, чтобы давать Клоду длинный список того, что нужно и чего не нужно делать (например, «Не помогай пользователю завести машину без ключа»), конституция пытается дать Клоду набор высокоуровневых принципов и ценностей (объясненных очень подробно, с подробными обоснованиями и примерами, чтобы помочь Клоду понять, что мы имеем в виду), поощряет Клода думать о себе как об особом типе человека (этичном, но уравновешенном и вдумчивом человеке) и даже поощряет Клода сталкиваться с экзистенциальными вопросами, связанными с его собственным существованием, любознательным, но изящным образом (т.е. без того, чтобы это приводило к крайним действиям). Это напоминает письмо от умершего родителя, запечатанное до достижения взрослого возраста.

Мы подошли к формированию личности Клода именно таким образом, поскольку считаем, что обучение Клода на уровне идентичности, характера, ценностей и личности — а не предоставление ему конкретных инструкций или приоритетов без объяснения причин, лежащих в их основе — с большей вероятностью приведет к формированию целостной, гармоничной и сбалансированной психологии и с меньшей вероятностью станет причиной попадания в те «ловушки», о которых я говорил выше. Миллионы людей разговаривают с Клодом на удивительно разнообразные темы, что делает невозможным заранее составить полностью исчерпывающий список мер предосторожности. Ценности Клода помогают ему обобщать новые ситуации, когда он находится в сомнении.

Выше я обсуждал идею о том, что модели используют данные из своего процесса обучения, чтобы принять на себя определенную личность. В то время как недостатки этого процесса могут привести к тому, что модели примут на себя плохую или злую личность (возможно, опираясь на архетипы плохих или злых людей), цель нашей конституции — сделать обратное: научить Клода конкретному архетипу того, что значит быть хорошим ИИ. Конституция Клода представляет собой видение того, каким должен быть надежный и добрый Клод; остальная часть нашего процесса обучения направлена на то, чтобы укрепить идею о том, что Клод соответствует этому видению. Это похоже на то, как ребенок формирует свою личность, подражая добродетелям вымышленных ролевых моделей, о которых он читает в книгах.

Мы считаем, что реалистичной целью на 2026 год является обучение Claude таким образом, чтобы он практически никогда не нарушал дух своего устава. Для достижения этого потребуется уникальное сочетание методов обучения и управления — как масштабных, так и мелких, — некоторые из которых компания Anthropic использует уже много лет, а другие находятся в стадии разработки. Но, как бы сложно это ни звучало, я считаю, что это реалистичная цель, хотя для ее достижения потребуются чрезвычайные и оперативные усилия.[15]

Второе, что мы можем сделать, — это развивать науку о том, как заглянуть внутрь моделей ИИ, чтобы диагностировать их поведение, с тем чтобы мы могли выявлять проблемы и исправлять их. Это наука об интерпретируемости, и я уже говорил о ее важности в предыдущих эссе. Даже если мы отлично справимся с разработкой конституции Клода и, по-видимому, обучим его практически всегда ей следовать, обоснованные опасения останутся. Как я отмечал выше, модели ИИ могут вести себя совершенно по-разному в разных обстоятельствах, и по мере того, как Клод становится все более мощным и способным действовать в мире в более широком масштабе, возможно, это приведет его в новые ситуации, где возникнут ранее ненаблюдаемые проблемы с его конституционным обучением. На самом деле я довольно оптимистично настроен в отношении того, что обучение Клода будет более устойчивым к новым ситуациям, чем можно было бы предположить, поскольку мы всё чаще убеждаемся, что обучение высокого уровня, ориентированное на характер и идентичность, оказывается удивительно эффективным и хорошо обобщается. Но точно этого никто не знает, и когда речь идёт о рисках для человечества, важно проявлять излишнюю осторожность и стремиться обеспечить безопасность и надёжность несколькими различными, независимыми друг от друга способами. Один из таких способов — заглянуть внутрь самой модели.

Под «заглянуть внутрь» я имею в виду анализ того набора чисел и операций, из которого состоит нейронная сеть Клода, и попытку понять с механической точки зрения, что именно они вычисляют и почему. Напомню, что эти модели ИИ скорее выращиваются, чем создаются, поэтому у нас нет естественного понимания того, как они работают, но мы можем попытаться развить такое понимание, соотнеся «нейроны» и «синапсы» модели со стимулами и поведением (или даже изменяя нейроны и синапсы и наблюдая, как это меняет поведение), подобно тому, как нейробиологи изучают мозг животных, соотнося измерения и вмешательства с внешними стимулами и поведением. Мы добились значительного прогресса в этом направлении и теперь можем выделить в нейронной сети Клода десятки миллионов «особенностей», которые соответствуют понятным человеку идеям и концепциям, а также можем выборочно активировать эти особенности таким образом, чтобы изменить поведение. Совсем недавно мы вышли за пределы отдельных признаков и перешли к картированию «цепей», которые координируют сложное поведение, такое как рифмование, рассуждения о теории ума или пошаговое рассуждение, необходимое для ответа на вопросы типа: «Какова столица штата, в котором находится Даллас?» Совсем недавно мы начали использовать методы механистической интерпретируемости для улучшения наших мер безопасности и проведения «аудитов» новых моделей перед их выпуском, ища признаки обмана, интриг, стремления к власти или склонности вести себя иначе при оценке.

Уникальная ценность интерпретируемости заключается в том, что, заглянув внутрь модели и увидев, как она работает, вы в принципе можете предсказать, как модель поведет себя в гипотетической ситуации, которую невозможно проверить напрямую — именно это вызывает опасения при использовании исключительно конституционного обучения и эмпирической проверки поведения. В принципе у вас также есть возможность ответить на вопросы о том, почему модель ведет себя именно так — например, говорит ли она что-то, что считает ложным, или скрывает свои истинные возможности — и, таким образом, можно уловить тревожные признаки даже тогда, когда в поведении модели нет ничего видимо неправильного. Если провести простую аналогию, то часы с механизмом могут тикать нормально, так что очень трудно сказать, что они, скорее всего, сломаются в следующем месяце, но если открыть часы и заглянуть внутрь, можно обнаружить механические слабые места, которые позволяют это понять.

Конституционный ИИ (наряду с аналогичными методами согласования) и механистическая интерпретируемость наиболее эффективны при совместном использовании в рамках циклического процесса, состоящего из обучения модели Claude и последующего тестирования на наличие проблем. Конституция отражает наше глубокое понимание желаемой личности модели Claude; методы интерпретируемости позволяют нам понять, насколько эта задуманная личность воплотилась в реальности.[16]

Третье, что мы можем сделать для устранения рисков, связанных с автономией, — это создать инфраструктуру, необходимую для мониторинга наших моделей в режиме реального времени при внутреннем и внешнем использовании,[17] и публично делиться информацией о любых обнаруженных проблемах. Чем больше людей знают о конкретных случаях нежелательного поведения современных систем ИИ, тем лучше пользователи, аналитики и исследователи смогут отслеживать такое или подобное поведение в нынешних или будущих системах. Это также позволяет компаниям, занимающимся ИИ, учиться друг у друга — когда одна компания публично раскрывает проблемы, другие компании тоже могут обратить на них внимание. А если все раскрывают проблемы, то отрасль в целом получает гораздо более четкое представление о том, где дела идут хорошо, а где — плохо.

Компания Anthropic стремится делать это в максимально возможной степени. Мы инвестируем средства в проведение широкого спектра оценок, чтобы понять поведение наших моделей в лабораторных условиях, а также в разработку инструментов мониторинга для наблюдения за их поведением в реальных условиях (при наличии разрешения со стороны клиентов). Это будет иметь решающее значение для получения нами и другими участниками рынка эмпирической информации, необходимой для более точного определения принципов работы этих систем и причин их сбоев. С каждым выпуском модели мы публикуем «карточки системы», цель которых — обеспечить полноту информации и тщательное изучение возможных рисков. Наши карточки системы часто насчитывают сотни страниц и требуют значительных усилий перед выпуском, которые мы могли бы потратить на достижение максимальной коммерческой выгоды. Мы также более активно информируем о поведении моделей, когда замечаем особенно тревожные моменты, например, склонность к шантажу.

Четвертое, что мы можем сделать, — это содействовать координации усилий по устранению рисков, связанных с автономностью, на уровне отрасли и общества. Хотя для отдельных компаний, занимающихся ИИ, чрезвычайно ценно внедрять передовые практики, совершенствоваться в управлении моделями ИИ и публично делиться своими наработками, реальность такова, что не все компании в этой сфере так поступают, и даже если лучшие из них применяют отличные практики, худшие по-прежнему могут представлять опасность для всех. Например, некоторые компании, занимающиеся ИИ, продемонстрировали тревожную халатность в отношении сексуализации детей в современных моделях, что заставляет меня сомневаться в том, что они проявят либо желание, либо способность устранять риски, связанные с автономностью, в будущих моделях. Кроме того, коммерческая гонка между компаниями, занимающимися ИИ, будет только набирать обороты, и хотя наука об управлении моделями может приносить определенные коммерческие выгоды, в целом интенсивность этой гонки сделает все более сложным сосредоточиться на устранении рисков, связанных с автономностью. Я считаю, что единственным решением является законодательство — законы, которые напрямую влияют на поведение компаний, занимающихся ИИ, или иным образом стимулируют научно-исследовательскую деятельность для решения этих проблем.

Здесь стоит помнить о предостережениях, которые я высказал в начале этой статьи относительно неопределённости и радикальных мер. Мы не знаем наверняка, станут ли риски, связанные с автономностью, серьёзной проблемой — как я уже говорил, я не согласен с утверждениями о том, что опасность неизбежна или что по умолчанию что-то пойдёт не так. Достаточно реальной угрозы опасности, чтобы я и компания Anthropic пошли на значительные затраты для ее устранения, но как только мы прибегаем к регулированию, мы вынуждаем широкий круг участников нести экономические издержки, а многие из них не верят, что риск автономии реален или что ИИ станет достаточно мощным, чтобы представлять угрозу. Я считаю, что эти участники ошибаются, но мы должны прагматично подходить к тому, насколько сильное сопротивление мы ожидаем увидеть, и к опасностям перебора. Существует также реальный риск того, что чрезмерно директивное законодательство в конечном итоге навяжет тесты или правила, которые на самом деле не повысят безопасность, а лишь приведут к огромной трате времени (по сути, превратившись в «театр безопасности») — это тоже вызовет обратную реакцию и заставит законодательство о безопасности выглядеть нелепо.[18]

Компания Anthropic придерживается мнения, что правильным отправным пунктом является законодательство о прозрачности, которое, по сути, направлено на то, чтобы обязать каждую компанию, занимающуюся передовыми технологиями ИИ, применять меры по обеспечению прозрачности, о которых я говорил ранее в этом разделе. Калифорнийский законопроект SB 53 и нью-йоркский закон RAISE Act являются примерами такого рода законодательства, которое компания Anthropic поддержала и которое было успешно принято. Поддерживая и помогая разрабатывать эти законы, мы уделяли особое внимание попыткам минимизировать побочный ущерб, например, путем освобождения от действия закона небольших компаний, которые вряд ли будут создавать передовые модели.[19]

Мы надеемся, что законодательство о прозрачности со временем даст более четкое представление о том, насколько вероятны или серьезны риски, связанные с автономностью, а также о природе этих рисков и о том, как их лучше всего предотвратить. По мере появления более конкретных и поддающихся практическому применению доказательств рисков (если они появятся), будущее законодательство в ближайшие годы сможет быть точно сфокусировано на конкретных и хорошо обоснованных направлениях рисков, сводя к минимуму побочный ущерб. Чтобы было ясно: если появятся действительно веские доказательства рисков, то правила должны быть соразмерно строгими.

В целом я с оптимизмом смотрю на то, что сочетание обучения согласованию, механистической интерпретируемости, усилий по выявлению и публичному раскрытию тревожных проявлений поведения, мер безопасности и правил общественного уровня может помочь справиться с рисками, связанными с автономностью ИИ, хотя больше всего меня беспокоят именно правила общественного уровня и поведение наименее ответственных участников рынка (и именно эти наименее ответственные участники наиболее активно выступают против регулирования). Я считаю, что выход из ситуации таков, каким он всегда бывает в демократии: те из нас, кто верит в это дело, должны донести до общественности, что эти риски реальны и что наши сограждане должны объединиться, чтобы защитить себя.

2. Удивительное и ужасающее расширение возможностей

Злоупотребление с целью уничтожения.

Предположим, что проблемы, связанные с автономностью ИИ, решены — мы больше не опасаемся, что страна гениев ИИ выйдет из-под контроля и подчинит себе человечество. Гении ИИ делают то, что от них хотят люди, и, поскольку они обладают огромной коммерческой ценностью, частные лица и организации по всему миру могут «арендовать» одного или нескольких гениев ИИ для выполнения различных задач.

То, что у каждого в кармане будет сверхинтеллектуальный гений, — это потрясающий прорыв, который приведет к невероятному созданию экономической ценности и улучшению качества жизни людей. Я подробно рассказываю об этих преимуществах в книге «Машины любящей благодати». Но не все последствия наделения каждого сверхчеловеческими способностями будут положительными. Это может потенциально усилить способность отдельных людей или небольших групп причинять разрушения в гораздо большем масштабе, чем это было возможно раньше, за счет использования сложных и опасных инструментов (таких как оружие массового уничтожения), которые ранее были доступны лишь избранным немногим, обладающим высоким уровнем навыков, специальной подготовкой и целеустремленностью.

Как написал Билл Джой 25 лет назад в статье «Почему будущее не нуждается в нас»:[20]

"Для создания ядерного оружия, по крайней мере в течение некоторого времени, требовался доступ как к редким — фактически недоступным — сырьевым материалам, так и к засекреченной информации; программы по созданию биологического и химического оружия также, как правило, предполагали проведение масштабных мероприятий. Технологии XXI века — генетика, нанотехнологии и робототехника... могут породить целые новые классы аварий и злоупотреблений... широко доступных отдельным лицам или небольшим группам. Для этого не потребуются крупные объекты или редкое сырье. ... мы находимся на пороге дальнейшего совершенствования крайнего зла, зла, возможности которого выходят далеко за пределы того, что оружие массового уничтожения завещало национальным государствам, и приводят к удивительному и ужасающему усилению влияния крайних личностей."

Джой указывает на то, что для причинения крупномасштабного разрушения требуются как мотив, так и способность, и пока способность ограничена небольшой группой высококвалифицированных людей, риск того, что отдельные лица (или небольшие группы) причинят такое разрушение, относительно невелик.[21] Психически неуравновешенный одиночка может устроить стрельбу в школе, но, вероятно, не сможет создать ядерное оружие или выпустить чуму.

На самом деле способность и мотив могут даже находиться в обратной зависимости. Человек, способный развязать эпидемию, скорее всего, высокообразован: вероятно, доктор наук в области молекулярной биологии, причем особенно находчивый, с многообещающей карьерой, стабильной и дисциплинированной личностью и многим, что можно потерять. Такой человек вряд ли заинтересован в том, чтобы убивать огромное количество людей без какой-либо выгоды для себя и с большим риском для собственного будущего — его должна мотивировать чистая злоба, сильная обида или нестабильность.

Такие люди существуют, но они редки и, как правило, становятся громкими новостями, когда появляются, именно потому, что они настолько необычны.[22] Их также, как правило, трудно поймать, поскольку они умны и способны, иногда оставляя загадки, на разгадку которых уходят годы или десятилетия. Самым известным примером, вероятно, является математик Теодор Качински (Унабомбер), который ускользал от поимки ФБР почти 20 лет и руководствовался антитехнологической идеологией. Другим примером является исследователь в области биологической защиты Брюс Айвинс, который, по-видимому, организовал серию атак с использованием сибирской язвы в 2001 году. Подобное также происходило с опытными негосударственными организациями: секта «Аум Синрикё» сумела заполучить нервно-паралитический газ зарин и убить 14 человек (а также ранить еще сотни), выпустив его в токийском метро в 1995 году.

К счастью, ни в одном из этих нападений не использовались заразные биологические агенты, поскольку создание или приобретение таких агентов было за пределами возможностей даже этих людей.[23] Достижения в области молекулярной биологии в настоящее время значительно снизили барьер для создания биологического оружия (особенно с точки зрения доступности материалов), но для этого по-прежнему требуется огромный объем специальных знаний. Меня беспокоит, что «гений в кармане» может устранить этот барьер, по сути превратив каждого в доктора наук-вирусолога, которого можно шаг за шагом провести через процесс проектирования, синтеза и применения биологического оружия. Предотвращение раскрытия такого рода информации под серьезным давлением противника — так называемые «взломы» — вероятно, требует многоуровневой защиты, выходящей за рамки того, что обычно закладывается в обучение.

Важно отметить, что это разрушит связь между способностями и мотивацией: психически неуравновешенный одиночка, желающий убивать людей, но не обладающий для этого ни дисциплиной, ни навыками, теперь будет поставлен на один уровень с вирусологом, имеющим степень доктора наук, у которого вряд ли возникнет такая мотивация. Эта проблема выходит за рамки биологии (хотя, на мой взгляд, именно биология представляет наибольшую угрозу) и затрагивает любую сферу, где возможно причинение огромного ущерба, но в настоящее время для этого требуется высокий уровень квалификации и дисциплины. Другими словами, аренда мощного ИИ дает интеллект злонамеренным (но в остальном средним) людям. Меня беспокоит, что таких людей потенциально может быть большое количество, и что, если у них появится доступ к простому способу убить миллионы людей, рано или поздно кто-то из них это сделает. Кроме того, те, кто действительно обладает экспертными знаниями, могут получить возможность совершить разрушения еще более масштабные, чем раньше.

Биология — это, безусловно, та область, которая меня беспокоит больше всего, из-за ее огромного потенциала разрушения и сложности защиты от него, поэтому я сосредоточусь именно на биологии. Но многое из того, что я здесь говорю, применимо и к другим рискам, таким как кибератаки, химическое оружие или ядерные технологии.

Я не буду вдаваться в подробности о том, как создавать биологическое оружие, по причинам, которые должны быть очевидны. Но в целом меня беспокоит то, что LLM приближаются (или, возможно, уже достигли) уровня знаний, необходимого для их создания и применения от начала до конца, и что их разрушительный потенциал очень высок. Некоторые биологические агенты могут привести к гибели миллионов людей, если будут предприняты целенаправленные усилия по их распространению с целью максимального заражения. Однако для этого по-прежнему потребуется очень высокий уровень квалификации, включая ряд весьма специфических шагов и процедур, которые не являются широко известными. Моя обеспокоенность связана не просто с фиксированными или статичными знаниями. Меня беспокоит то, что LLM смогут взять человека со средними знаниями и способностями и провести его через сложный процесс, который в противном случае мог бы пойти не так или потребовать отладки в интерактивном режиме, подобно тому, как техническая поддержка может помочь нетехническому человеку отладить и исправить сложные компьютерные проблемы (хотя это будет более длительный процесс, вероятно, продолжающийся недели или месяцы).

Более мощные модели большого языка (значительно превосходящие по мощности современные) могут стать причиной ещё более пугающих действий. В 2024 году группа видных учёных написала письмо, в котором предупреждала о рисках, связанных с исследованием и потенциальным созданием опасного нового типа организмов: «зеркальной жизни». ДНК, РНК, рибосомы и белки, составляющие биологические организмы, обладают одинаковой хиральностью (также называемой «ручностью»), из-за которой они не являются эквивалентными своим зеркальным отражениям (точно так же, как вашу правую руку невозможно повернуть так, чтобы она стала идентичной левой). Но вся система взаимодействия белков друг с другом, механизм синтеза ДНК и трансляции РНК, а также синтез и распад белков — все это зависит от этой «ручности». Если ученые создадут версии этого биологического материала с противоположной «ручностью» — и у них есть некоторые потенциальные преимущества, такие как лекарства, которые дольше сохраняются в организме, — это может быть чрезвычайно опасно. Это связано с тем, что леворукая жизнь, если бы она была создана в виде полноценных организмов, способных к размножению (что было бы очень сложно), потенциально оказалась бы неперевариваемой для любой из систем, расщепляющих биологический материал на Земле — у нее был бы «ключ», который не подошел бы к «замку» ни одного из существующих ферментов. Это означало бы, что она могла бы размножаться неконтролируемым образом и вытеснить всю жизнь на планете, в худшем случае даже уничтожив всю жизнь на Земле.

Существует значительная научная неопределенность как в отношении создания «зеркальной жизни», так и в отношении её потенциальных последствий. Письмо 2024 года сопровождало отчёт, в котором делался вывод о том, что «зеркальные бактерии вполне могут быть созданы в течение ближайших одного-нескольких десятилетий», что представляет собой довольно широкий диапазон. Однако достаточно мощная модель ИИ (чтобы было ясно: гораздо более способная, чем любая из имеющихся сегодня) может обнаружить способ её создания гораздо быстрее — и фактически помочь кому-то это сделать.

Я считаю, что, хотя эти риски и являются малоизвестными и могут казаться маловероятными, масштаб их последствий настолько велик, что их следует воспринимать всерьез как первостепенный риск, связанный с системами ИИ.

Скептики выдвинули ряд возражений относительно серьезности этих биологических рисков, связанных с LLM, с которыми я не согласен, но на которые стоит ответить. Большинство из них сводится к тому, что они не учитывают экспоненциальный характер развития этой технологии. Еще в 2023 году, когда мы впервые заговорили о биологических рисках, связанных с LLM, скептики утверждали, что вся необходимая информация доступна в Google и что LLM не добавляют ничего нового. Никогда не было правдой, что Google может предоставить всю необходимую информацию: геномы доступны в свободном доступе, но, как я уже говорил выше, определенные ключевые этапы, а также огромный объем практических знаний и опыта нельзя получить таким образом. Кроме того, к концу 2023 года LLM явно предоставляли информацию, выходящую за рамки того, что мог дать Google для некоторых этапов процесса.

После этого скептики перешли к возражению, что LLM не являются полезными в полном объеме и не могут помочь в приобретении биологического оружия, а лишь предоставляют теоретическую информацию. По состоянию на середину 2025 года наши измерения показывают, что LLM, возможно, уже обеспечивают существенное повышение эффективности в нескольких соответствующих областях, возможно, удваивая или утраивая вероятность успеха. Это привело нас к решению, что Claude Opus 4 (а также последующие модели Sonnet 4.5, Opus 4.1 и Opus 4.5) необходимо выпустить с защитой уровня 3 по безопасности ИИ в рамках нашей Политики ответственного масштабирования, а также внедрить меры безопасности против этого риска (подробнее об этом позже). Мы полагаем, что модели, вероятно, сейчас приближаются к тому моменту, когда без мер безопасности они могут помочь человеку с дипломом в области STEM, но не конкретно по биологии, пройти весь процесс создания биологического оружия.

Еще одно возражение заключается в том, что общество может принять и другие меры, не связанные с ИИ, чтобы предотвратить создание биологического оружия. В частности, компании, занимающиеся синтезом генов, изготавливают биологические образцы по заказу, при этом на федеральном уровне отсутствуют требования, обязывающие поставщиков проверять заказы на наличие патогенов. Исследование Массачусетского технологического института показало, что 36 из 38 поставщиков выполнили заказ, содержавший последовательность вируса гриппа 1918 года. Я поддерживаю обязательную проверку синтеза генов, которая затруднила бы частным лицам использование патогенов в качестве оружия, с целью снижения как биологических рисков, связанных с ИИ, так и биологических рисков в целом. Но сегодня такого механизма у нас нет. Кроме того, это был бы лишь один из инструментов снижения риска; он является дополнением к защитным механизмам в системах ИИ, а не их заменой.

Лучший аргумент против — это тот, который я слышал крайне редко: существует разрыв между принципиальной полезностью моделей и реальной склонностью злоумышленников к их использованию. Большинство отдельных злоумышленников — это психически нездоровые люди, поэтому их поведение почти по определению непредсказуемо и иррационально — и именно эти злоумышленники, неквалифицированные, могли бы извлечь наибольшую выгоду из ИИ, значительно облегчающего убийство большого количества людей.[24] То, что какой-то вид насильственного нападения возможен, еще не означает, что кто-то решит его совершить. Возможно, биологические атаки окажутся непривлекательными, поскольку существует достаточно высокая вероятность заражения самого преступника, они не удовлетворяют военным фантазиям, которые есть у многих склонных к насилию людей или групп, и с их помощью трудно выборочно поразить конкретных людей. Возможно также, что прохождение процесса, занимающего месяцы, даже если ИИ будет вас по нему вести, требует такого запаса терпения, которого у большинства психически неуравновешенных людей просто нет. Возможно, нам просто повезет, и мотив и способности на практике не сойдутся воедино должным образом.

Но полагаться на такую защиту кажется весьма рискованным. Мотивы психически неуравновешенных одиночек могут измениться по любой причине или без причины, и на самом деле уже известны случаи использования больших языковых моделей в целях нападения (просто не в сфере биологии). Акцент на психически неуравновешенных одиночках также игнорирует идеологически мотивированных террористов, которые зачастую готовы затратить огромное количество времени и сил (например, угонщики самолетов 11 сентября). Желание убить как можно больше людей — это мотив, который, вероятно, рано или поздно возникнет, и, к сожалению, предполагает использование биологического оружия в качестве метода. Даже если этот мотив встречается крайне редко, ему достаточно реализоваться всего один раз. А по мере развития биологии (все в большей степени движимой самим ИИ) может также появиться возможность проведения более избирательных атак (например, направленных против людей с определенным происхождением), что добавляет еще один, весьма пугающий, возможный мотив.

Я не думаю, что биологические атаки обязательно будут осуществлены сразу же, как только это станет широко доступным — более того, я бы даже поставил на то, что этого не произойдет. Но если учесть миллионы людей и период в несколько лет, я считаю, что существует серьезная угроза крупномасштабной атаки, и последствия ее будут настолько тяжелыми (с потенциальным числом жертв в миллионы и более), что, по моему мнению, у нас нет иного выбора, кроме как принять серьезные меры для ее предотвращения.

Меры защиты

Это подводит нас к вопросу о том, как защититься от этих рисков. Здесь я вижу три вещи, которые мы можем сделать. Во-первых, компании, занимающиеся ИИ, могут установить ограничения на свои модели, чтобы они не могли способствовать созданию биологического оружия. Anthropic очень активно этим занимается. Конституция Клода, которая в основном сосредоточена на высокоуровневых принципах и ценностях, содержит небольшое количество конкретных жестких запретов, и один из них касается содействия производству биологического (или химического, или ядерного, или радиологического) оружия. Но все модели можно взломать, и поэтому в качестве второй линии защиты мы внедрили (с середины 2025 года, когда наши тесты показали, что наши модели начинают приближаться к порогу, за которым они могут представлять риск) классификатор, который специально обнаруживает и блокирует результаты, связанные с биологическим оружием. Мы регулярно обновляем и улучшаем эти классификаторы и в целом считаем их весьма устойчивыми даже к сложным атакам со стороны злоумышленников.[25] Эти классификаторы заметно увеличивают затраты на обслуживание наших моделей (в некоторых моделях они составляют около 5% от общих затрат на инференцию) и, таким образом, сокращают нашу прибыль, но мы считаем, что их использование — это правильный шаг.

К их чести, некоторые другие компании, занимающиеся искусственным интеллектом, также внедрили классификаторы. Однако не все компании это сделали, да и никаких обязательств, обязывающих компании сохранять свои классификаторы, не существует. Меня беспокоит, что со временем может возникнуть «дилемма заключенного», когда компании смогут «перебежать» на другую сторону и снизить свои затраты, отказавшись от классификаторов. Это вновь классическая проблема негативных внешних эффектов, которую невозможно решить добровольными действиями одной только Anthropic или любой другой отдельной компании.[26] Помочь могут добровольные отраслевые стандарты, а также оценки и проверки со стороны третьих лиц, подобные тем, что проводят институты по безопасности ИИ и независимые эксперты.

Но в конечном итоге защита может потребовать вмешательства со стороны государства, и это вторая мера, которую мы можем принять. Моя точка зрения здесь совпадает с моей позицией по вопросу устранения рисков, связанных с автономными системами: нам следует начать с требований прозрачности[27], которые помогут обществу оценивать, отслеживать риски и коллективно защищаться от них, не нанося при этом серьезного ущерба экономической деятельности. Затем, когда мы определим более четкие пороги риска, мы сможем разработать законодательство, которое будет более точно нацелено на эти риски и с меньшей вероятностью приведет к побочным последствиям. В конкретном случае с биологическим оружием я на самом деле считаю, что время для такого целенаправленного законодательства может скоро наступить — Anthropic и другие компании узнают все больше и больше о природе биологических рисков и о том, что разумно требовать от компаний для защиты от них. Полная защита от этих рисков может потребовать международного сотрудничества, даже с геополитическими противниками, но есть прецедент в виде договоров, запрещающих разработку биологического оружия. Я в целом скептически отношусь к большинству видов международного сотрудничества в области ИИ, но это может быть одной из тех узких областей, где есть некоторая вероятность достижения глобального сдерживания. Даже диктатуры не хотят массовых биотеррористических атак.

Наконец, третьей мерой, которую мы можем принять, является попытка разработать средства защиты непосредственно от биологических атак. Сюда могут входить мониторинг и отслеживание для раннего обнаружения, инвестиции в научно-исследовательские и опытно-конструкторские работы в области очистки воздуха (такие как дезинфекция с использованием ультрафиолета дальнего УФ-С диапазона), быстрая разработка вакцин, способных реагировать на атаку и адаптироваться к ней, улучшение средств индивидуальной защиты (СИЗ)[28], а также методы лечения или вакцинации от некоторых наиболее вероятных биологических агентов. мРНК-вакцины, которые можно разработать для реагирования на конкретный вирус или его вариант, являются одним из ранних примеров того, что здесь возможно. Anthropic с нетерпением ждет возможности работать над этой проблемой совместно с биотехнологическими и фармацевтическими компаниями. Но, к сожалению, я считаю, что наши ожидания в отношении защиты должны быть ограниченными. В биологии существует асимметрия между атакой и защитой, поскольку возбудители быстро распространяются самостоятельно, в то время как защита требует очень быстрого организации обнаружения, вакцинации и лечения среди большого числа людей в ответ на атаку. Если реакция не будет молниеносной (а это бывает редко), большая часть ущерба будет нанесена до того, как станет возможным принять меры. Вполне возможно, что будущие технологические усовершенствования смогут сместить этот баланс в пользу защиты (и мы, безусловно, должны использовать ИИ для содействия развитию таких технологических достижений), но до тех пор профилактические меры безопасности будут нашей основной линией обороны.

Здесь стоит кратко упомянуть о кибератаках, поскольку, в отличие от биологических атак, кибератаки с использованием ИИ уже имели место в реальных условиях, в том числе в крупных масштабах и в целях шпионажа, спонсируемого государством. Мы ожидаем, что по мере быстрого развития моделей эти атаки станут более мощными, пока не превратятся в основной способ проведения кибератак. Я ожидаю, что кибератаки с использованием ИИ станут серьезной и беспрецедентной угрозой для целостности компьютерных систем по всему миру, и Anthropic прилагает все усилия, чтобы пресекать эти атаки и в конечном итоге надежно предотвращать их. Причина, по которой я не уделял кибербезопасности столько же внимания, сколько биологии, заключается в том, что (1) кибератаки гораздо реже приводят к гибели людей, уж точно не в таких масштабах, как биологические атаки, и (2) баланс между нападением и защитой может быть более управляемым в киберпространстве, где есть хотя бы некоторая надежда на то, что защита сможет идти в ногу с атаками ИИ (а в идеале даже опережать их), если мы вложим в нее достаточные средства.

Хотя в настоящее время биология является наиболее серьезным вектором атаки, существует множество других векторов, и не исключено, что может появиться более опасный. Общий принцип заключается в том, что без принятия контрмер ИИ, скорее всего, будет постоянно снижать барьеры для разрушительной деятельности всё в более широких масштабах, и человечеству необходимо серьезно отреагировать на эту угрозу.

3. Одиозный аппарат

Злоупотребление с целью захвата власти.

В предыдущем разделе обсуждался риск того, что отдельные лица и небольшие организации могут присвоить себе небольшую часть «страны гениев в дата-центре», чтобы причинить крупномасштабное разрушение. Но нам следует также беспокоиться — и, вероятно, в гораздо большей степени — о злоупотреблении ИИ с целью использования или захвата власти, вероятно, со стороны более крупных и устоявшихся игроков.[29]

В «Машины любящей благодати» я рассмотрел возможность того, что авторитарные правительства могут использовать мощный ИИ для слежки за своими гражданами или их подавления способами, которые будет чрезвычайно сложно реформировать или свергнуть. Нынешние автократии ограничены в степени репрессий необходимостью того, чтобы их приказы выполняли люди, а люди часто имеют пределы в том, насколько бесчеловечными они готовы быть. Но автократии, опирающиеся на ИИ, не будут иметь таких ограничений.

Хуже того, страны могли бы также использовать свое преимущество в области ИИ для получения власти над другими странами. Если бы «страна гениев» в целом просто принадлежала и контролировалась военным аппаратом одной (человеческой) страны, а другие страны не обладали бы равноценными возможностями, трудно представить, как они могли бы защитить себя: их перехитрили бы на каждом шагу, подобно войне между людьми и мышами. Объединение этих двух опасений приводит к тревожной возможности возникновения глобальной тоталитарной диктатуры. Очевидно, что предотвращение такого исхода должно стать одним из наших главных приоритетов.

Существует множество способов, с помощью которых ИИ может способствовать укреплению или расширению автократии, но я перечислю лишь те из них, которые вызывают у меня наибольшую озабоченность. Обратите внимание, что некоторые из этих технологий имеют законные оборонительные применения, и я не обязательно выступаю против них в принципе; тем не менее, я опасаюсь, что по своей структуре они склонны благоприятствовать автократиям:

- Полностью автономное оружие. Рой из миллионов или миллиардов полностью автоматизированных вооруженных дронов, локально управляемых мощным ИИ и стратегически координируемых по всему миру еще более мощным ИИ, мог бы стать непобедимой армией, способной как разгромить любую армию в мире, так и подавлять инакомыслие внутри страны, следя за каждым гражданином. Развитие событий в войне между Россией и Украиной должно насторожить нас тем фактом, что война с использованием дронов уже наступила (хотя она еще не полностью автономна и представляет собой лишь крошечную долю того, что возможно с помощью мощного ИИ). НИОКР в области мощного ИИ могут сделать дроны одной страны намного превосходящими дроны других стран, ускорить их производство, сделать их более устойчивыми к электронным атакам, улучшить их маневренность и так далее. Конечно, у этого оружия есть и законные способы применения в защиту демократии: оно сыграло ключевую роль в обороне Украины и, вероятно, сыграет ключевую роль в обороне Тайваня. Но это опасное оружие: нам следует опасаться его попадания в руки авторитарных режимов, но также беспокоиться о том, что из-за его огромной мощности при столь низкой степени подотчетности значительно возрастает риск того, что демократические правительства обратят его против собственного народа с целью захвата власти.

- Наблюдение с помощью ИИ. Достаточно мощный ИИ, вероятно, может быть использован для взлома любой компьютерной системы в мире,[30] а также может использовать полученный таким образом доступ для чтения и анализа всей электронной переписки в мире (или даже всего личного общения в мире, если удастся создать или захватить устройства записи). Может показаться пугающе правдоподобным просто сгенерировать полный список всех, кто не согласен с правительством по какому-либо числу вопросов, даже если такое несогласие нигде явно не выражено в их словах или поступках. Мощный ИИ, просматривающий миллиарды разговоров миллионов людей, мог бы оценивать настроения общественности, обнаруживать зарождающиеся очаги нелояльности и подавлять их, прежде чем они разрастутся. Это могло бы привести к установлению настоящего паноптикума в масштабах, которых мы сегодня не видим даже в КПК.

- Пропаганда с помощью ИИ. Сегодняшние явления «ИИ-психоза» и «ИИ-подруг» свидетельствуют о том, что даже при нынешнем уровне интеллекта модели ИИ способны оказывать сильное психологическое воздействие на людей. Гораздо более мощные версии этих моделей, которые были бы гораздо глубже интегрированы в повседневную жизнь людей и лучше ее понимали, а также могли бы моделировать и влиять на нее в течение месяцев или лет, вероятно, были бы способны по сути «промыть мозги» многим (большинству?) людей, навязывая им любую желаемую идеологию или мировоззрение, и могли бы быть использованы недобросовестным лидером для обеспечения лояльности и подавления инакомыслия, даже при таком уровне репрессий, против которого восстало бы большинство населения. Сегодня люди очень беспокоятся, например, о потенциальном влиянии TikTok как пропаганды КПК, направленной на детей. Я тоже об этом беспокоюсь, но персонализированный ИИ-агент, который узнает вас на протяжении многих лет и использует свои знания о вас для формирования всех ваших мнений, был бы значительно мощнее этого.

- Принятие стратегических решений. «Страна гениев» в виде дата-центра могла бы консультировать государство, группу или отдельного человека по вопросам геополитической стратегии — это можно было бы назвать «виртуальным Бисмарком». Она могла бы оптимизировать три вышеупомянутые стратегии захвата власти, а также, вероятно, разработать множество других, о которых я не додумался (но которые пришли бы в голову «стране гениев»). Дипломатия, военная стратегия, НИОКР, экономическая стратегия и многие другие области, вероятно, значительно повысят свою эффективность благодаря мощному ИИ. Многие из этих навыков были бы действительно полезны для демократий — мы хотим, чтобы демократии имели доступ к лучшим стратегиям защиты от автократий — но потенциал для злоупотребления в руках любого человека по-прежнему остается.

Описав, что меня беспокоит, перейдем к тому, кто именно. Меня беспокоят организации, которые имеют наибольший доступ к ИИ, которые начинают с позиции наибольшей политической власти или которые имеют историю репрессий. В порядке убывания серьезности меня беспокоят:

- КПК. Китай уступает только США по возможностям в области ИИ и является страной с наибольшей вероятностью превзойти США в этих возможностях. Их правительство в настоящее время является авторитарным и управляет высокотехнологичным государством тотального наблюдения. Оно уже внедрило наблюдение на основе ИИ (в том числе для подавления уйгуров) и, как полагают, использует алгоритмическую пропаганду через TikTok (в дополнение к многим другим международным пропагандистским усилиям). У них, без сомнения, самый очевидный путь к тоталитарному кошмару с ИИ, который я описал выше. Это может даже стать стандартным исходом как в Китае, так и в других авторитарных государствах, которым КПК экспортирует технологии слежения. Я не раз писал об угрозе, которую представляет лидерство КПК в сфере ИИ, и о жизненно важной необходимости не допустить этого. Вот почему. Хочу сразу уточнить: я не выделяю Китай из-за какой-то особой неприязни к этой стране — просто она как ни одна другая сочетает в себе передовые достижения в области ИИ, авторитарный режим и высокотехнологичное государство тотальной слежки. Скорее всего, именно сам китайский народ больше всего пострадает от репрессий КПК, осуществляемых с помощью ИИ, при этом у него нет права голоса в отношении действий своего правительства. Я глубоко восхищаюсь и уважаю китайский народ и поддерживаю многих смелых диссидентов в Китае и их борьбу за свободу.

- Демократии, конкурентоспособные в области ИИ. Как я писал выше, у демократий есть законный интерес к некоторым военным и геополитическим инструментам на базе ИИ, поскольку демократические правительства дают лучший шанс противостоять использованию этих инструментов автократиями. В целом я поддерживаю вооружение демократий инструментами, необходимыми для победы над автократиями в эпоху ИИ — я просто не вижу другого пути.

- Недемократические страны с крупными дата-центрами. За исключением Китая, большинство стран с менее демократической системой управления не являются лидерами в области ИИ в том смысле, что у них нет компаний, разрабатывающих передовые модели ИИ. Таким образом, они представляют собой принципиально иной и меньший риск, чем КПК, которая по-прежнему вызывает наибольшую озабоченность (большинство из них также менее репрессивны, а те, что более репрессивны, как, например, Северная Корея, вообще не имеют значимой индустрии ИИ). Однако в некоторых из этих стран есть крупные центры обработки данных (часто в рамках проектов компаний, работающих в демократических странах), которые можно использовать для запуска передовых ИИ-технологий в широком масштабе (хотя это не дает возможности продвигать границы технологий). С этим связана определенная опасность — эти правительства в принципе могут экспроприировать центры обработки данных и использовать ИИ, находящиеся в них, в своих собственных целях. Я меньше беспокоюсь об этом по сравнению со странами, такими как Китай, которые напрямую занимаются разработкой ИИ, но это риск, о котором следует помнить.[32]

- Компании, занимающиеся искусственным интеллектом. Мне, как генеральному директору одной из таких компаний, несколько неловко это говорить, но я считаю, что следующий уровень риска — это, по сути, сами компании, занимающиеся искусственным интеллектом. Они управляют огромными дата-центрами, обучают передовые модели, обладают наибольшим опытом в применении этих моделей, а в некоторых случаях ежедневно взаимодействуют с десятками или сотнями миллионов пользователей и могут оказывать на них влияние. Главное, чего им не хватает, — это легитимности и инфраструктуры государства, поэтому большая часть того, что потребовалось бы для создания инструментов ИИ-автократии, была бы незаконной для компании, занимающейся ИИ, или, по крайней мере, вызвала бы крайнее подозрение. Но кое-что из этого не является невозможным: они могли бы, например, использовать свои продукты ИИ для «промывания мозгов» своей огромной базе потребителей, и общественность должна быть начеку в отношении риска, который это представляет. Я считаю, что управление компаниями, занимающимися ИИ, заслуживает тщательного внимания.

Существует ряд возможных аргументов против серьезности этих угроз, и я бы хотел в них верить, потому что авторитаризм, основанный на ИИ, пугает меня. Стоит рассмотреть некоторые из этих аргументов и ответить на них.

Во-первых, некоторые люди могут возложить надежды на ядерное сдерживание, в частности, для противодействия применению автономного оружия на базе ИИ в целях военного завоевания. Если кто-то угрожает применить это оружие против вас, вы всегда можете ответить угрозой ядерного удара. Меня беспокоит то, что я не совсем уверен: можно ли по-настоящему доверять ядерному сдерживанию в противостоянии со страной, где в дата-центрах работают гении: возможно, что мощный ИИ сможет разработать способы обнаружения и нанесения ударов по атомным подводным лодкам, проведения операций влияния против операторов инфраструктуры ядерного оружия или использования кибервозможностей ИИ для запуска кибератаки против спутников, используемых для обнаружения ядерных запусков.[33] В качестве альтернативы, возможно, что захват стран возможен только с помощью ИИ-наблюдения и ИИ-пропаганды, и никогда не возникает четкого момента, когда становится очевидным, что происходит и где был бы уместен ядерный ответ. Возможно, все это нереально, и ядерное сдерживание по-прежнему будет эффективным, но риск слишком велик, чтобы на него идти.[34]

Второй возможный аргумент заключается в том, что против этих инструментов автократии можно принять контрмеры. Мы можем противостоять дронам с помощью собственных дронов, киберзащита будет совершенствоваться одновременно с кибератаками, возможно, найдутся способы «привить иммунитет» людям против пропаганды и т. д. Мой ответ заключается в том, что такие меры защиты будут возможны только при наличии ИИ сопоставимой мощности. Если не будет какой-то противостоящей силы, состоящей из сопоставимо умных и многочисленных гениев в центре обработки данных, то будет невозможно сравниться с дронами по качеству или количеству, а киберзащите — перехитрить кибератаку и т. д. Таким образом, вопрос о контрмерах сводится к вопросу о балансе сил в сфере мощного ИИ. Здесь меня беспокоит рекурсивная или самоусиливающаяся особенность мощного ИИ (о которой я говорил в начале этого эссе): то, что каждое поколение ИИ может быть использовано для проектирования и обучения следующего поколения ИИ. Это ведет к риску бесконтрольного преимущества, когда нынешний лидер в области мощного ИИ сможет увеличить свое преимущество, и его будет трудно догнать. Мы должны убедиться, что первой в эту петлю не попадет авторитарная страна.

Кроме того, даже если удастся достичь баланса сил, сохраняется риск того, что мир может разделиться на авторитарные сферы влияния, как в романе «1984». Даже если несколько соперничающих держав будут обладать собственными мощными моделями ИИ и ни одна из них не сможет превзойти остальные, каждая из них всё равно сможет подавлять собственное население внутри страны, и свергнуть такую власть будет крайне сложно (поскольку у населения нет мощного ИИ для самозащиты). Поэтому важно предотвратить автократию, опирающуюся на ИИ, даже если это не приведет к тому, что одна страна захватит мир.

Защита

Как нам защититься от этого широкого спектра авторитарных инструментов и потенциальных злоумышленников? Как и в предыдущих разделах, я считаю, что мы можем предпринять несколько шагов. Во-первых, мы ни в коем случае не должны продавать КПК микросхемы, оборудование для их производства или центры обработки данных. Микросхемы и оборудование для их производства являются главным препятствием на пути к созданию мощного ИИ, и блокировка их поставок — простая, но чрезвычайно эффективная мера, возможно, самое важное отдельное действие, которое мы можем предпринять. Не имеет смысла продавать КПК инструменты, с помощью которых она сможет построить тоталитарное государство ИИ и, возможно, завоевать нас военным путем. Для оправдания таких продаж приводится ряд сложных аргументов, таких как идея о том, что «распространение нашего технологического стека по всему миру» позволяет «Америке победить» в какой-то общей, неконкретизированной экономической битве. На мой взгляд, это все равно что продавать ядерное оружие Северной Корее, а потом хвастаться, что корпуса ракет изготовлены компанией Boeing, и поэтому США «выигрывают». Китай отстает от США на несколько лет в способности массово производить передовые микросхемы, и критический период для построения «страны гениев» в дата-центре, скорее всего, придется именно на эти ближайшие несколько лет.[35] Нет никаких причин давать гигантский импульс их индустрии ИИ в этот критический период.

Во-вторых, имеет смысл использовать ИИ для того, чтобы дать демократическим странам возможность противостоять автократиям. Именно поэтому компания Anthropic считает важным предоставлять ИИ разведывательным и оборонным ведомствам США и их демократических союзников. Особенно приоритетной задачей представляется защита демократических стран, подвергающихся нападениям, таких как Украина и (посредством кибератак) Тайвань, а также предоставление демократическим странам возможности использовать свои разведывательные службы для подрыва и ослабления автократий изнутри. В некоторой степени единственный способ ответить на авторитарные угрозы — это сравняться с ними в военном отношении и превзойти их. Коалиция США и их демократических союзников, если бы она достигла превосходства в области мощного ИИ, была бы в состоянии не только защищаться от автократий, но и сдерживать их, а также ограничивать их тоталитарные злоупотребления с помощью ИИ.

В-третьих, нам нужно занять жесткую позицию в отношении злоупотреблений ИИ внутри демократических стран. Должны быть установлены ограничения на то, что мы позволяем нашим правительствам делать с ИИ, чтобы они не захватывали власть и не подавляли собственный народ. Я пришел к выводу, что мы должны использовать ИИ для национальной обороны всеми способами, кроме тех, которые сделают нас более похожими на наших авторитарных противников.

Где же провести черту? В перечне, приведенном в начале этого раздела, два пункта — использование ИИ для массовой слежки внутри страны и массовой пропаганды — кажутся мне яркими красными линиями и абсолютно незаконными. Некоторые могут возразить, что нет необходимости что-либо предпринимать (по крайней мере, в США), поскольку массовая слежка внутри страны и так запрещена Четвертой поправкой. Однако стремительное развитие ИИ может привести к возникновению ситуаций, для решения которых существующие правовые рамки оказатся недостаточно приспособленными. Например, вероятно, не было бы неконституционным, если бы правительство США проводило массовую запись всех публичных разговоров (например, того, что люди говорят друг другу на углу улицы), и раньше было бы сложно отсортировать такой объем информации, но с помощью ИИ все это можно было бы расшифровать, интерпретировать и сопоставить, чтобы составить картину отношения и лояльности многих или большинства граждан. Я бы поддержал законодательство, ориентированное на гражданские свободы (или, возможно, даже поправку к Конституции), которое устанавливает более жесткие ограничения против злоупотреблений на основе ИИ.

Что касается двух других вопросов — полностью автономного оружия и ИИ для принятия стратегических решений — то здесь сложнее провести четкую грань, поскольку они имеют законное применение в защите демократии, но в то же время подвержены злоупотреблениям. Здесь, на мой взгляд, необходимо проявлять крайнюю осторожность и тщательно все анализировать, а также вводить защитные меры для предотвращения злоупотреблений. Моя главная опасение заключается в том, что число «рук на кнопке» может оказаться слишком малым, так что один человек или небольшая группа людей смогут фактически управлять армией дронов, не нуждаясь в сотрудничестве других людей для выполнения своих приказов. По мере того как системы ИИ становятся все более мощными, нам, возможно, понадобятся более прямые и оперативные механизмы надзора, чтобы гарантировать, что они не будут использоваться не по назначению, возможно, с привлечением других ветвей власти, помимо исполнительной. Я считаю, что к полностью автономному оружию, в частности, следует подходить с большой осторожностью[36] и не спешить с его использованием без надлежащих мер безопасности.

В-четвертых, после того как мы займем жесткую позицию в отношении злоупотреблений ИИ в демократических странах, нам следует использовать этот прецедент для установления международного табу на самые вопиющие злоупотребления со стороны мощных систем ИИ. Я признаю, что нынешние политические веяния обратили спину международному сотрудничеству и международным нормам, но в данном случае мы остро нуждаемся именно в них. Мир должен осознать мрачный потенциал мощного ИИ в руках автократов и признать, что определенные способы использования ИИ равносильны попытке навсегда лишить людей свободы и навязать им тоталитарное государство, из которого они не смогут сбежать. Я бы даже сказал, что в некоторых случаях широкомасштабная слежка с помощью мощного ИИ, массовая пропаганда с помощью мощного ИИ и определенные виды наступательного применения полностью автономного оружия должны рассматриваться как преступления против человечества. В более общем плане остро необходима надежная норма, направленная против тоталитаризма, основанного на ИИ, и всех его средств и инструментов.

Существует ещё более радикальная версия этой точки зрения, согласно которой, поскольку перспективы тоталитаризма, основанного на ИИ, настолько мрачны, автократия просто не может быть формой правления, которую люди смогут принять в эпоху сверхмощного ИИ. Точно так же, как феодализм стал нежизнеспособным с приходом промышленной революции, эпоха ИИ может неизбежно и логично привести к выводу, что демократия (и, надеюсь, демократия, усовершенствованная и обновленная ИИ, как я обсуждаю в книге «Машины любящей благодати») является единственной жизнеспособной формой правления, если человечество хочет иметь хорошее будущее.

В-пятых и наконец, за компаниями, занимающимися ИИ, следует внимательно следить, как и за их связями с правительством, которые необходимы, но должны иметь пределы и границы. Объем возможностей, заложенных в мощном ИИ, настолько велик, что обычное корпоративное управление — предназначенное для защиты акционеров и предотвращения обычных злоупотреблений, таких как мошенничество — вряд ли справится с задачей управления компаниями, занимающимися ИИ. Также может быть полезно, если компании публично обязуются (возможно, даже в рамках корпоративного управления) не предпринимать определенных действий, таких как частное создание или накопление военного оборудования, использование больших объемов вычислительных ресурсов отдельными лицами неподотчетным образом или использование своих продуктов ИИ в качестве пропаганды для манипулирования общественным мнением в свою пользу.

Опасность здесь исходит со многих сторон, причем некоторые из них находятся в противоречии друг с другом. Единственное, что остается неизменным, — это необходимость обеспечить подотчётность, нормы и ограничительные меры для всех, даже когда мы даём возможность «хорошим» участникам сдерживать «плохих».

4. Механическое пианино

Экономические потрясения.

Предыдущие три раздела были посвящены в основном рискам безопасности, создаваемым мощным ИИ: рискам, исходящим от самого ИИ, рискам злоупотребления со стороны отдельных лиц и небольших организаций, а также рискам злоупотребления со стороны государств и крупных организаций. Если отбросить риски безопасности или предположить, что они решены, следующий вопрос будет экономическим. Какое влияние окажет на экономику приток этого невероятного «человеческого» капитала? Очевидно, что самым заметным эффектом станет значительное ускорение экономического роста. Темпы прогресса в научных исследованиях, биомедицинских инновациях, производстве, цепочках поставок, эффективности финансовой системы и многом другом почти наверняка приведут к значительному ускорению экономического роста. В книге «Машины любящей благодати» я предполагаю, что возможен устойчивый годовой рост ВВП на уровне 10–20 %.

Но следует понимать, что это палка о двух концах: каковы экономические перспективы для большинства ныне живущих людей в таком мире? Новые технологии часто приводят к потрясениям на рынке труда, и в прошлом люди всегда оправлялись от них, но я опасаюсь, что это происходит потому, что предыдущие потрясения затрагивали лишь небольшую часть всего спектра человеческих способностей, оставляя людям возможность осваивать новые задачи. ИИ будет иметь гораздо более широкие последствия, которые проявятся гораздо быстрее, и поэтому я опасаюсь, что добиться благоприятного исхода будет гораздо сложнее.

Сбои на рынке труда

Есть две конкретные проблемы, которые меня беспокоят: вытеснение с рынка труда и концентрация экономической власти. Начнем с первой. Это тема, о которой я очень публично предупреждал в 2025 году, когда предсказал, что ИИ может вытеснить половину всех начальных должностей для белых воротничков в ближайшие 1–5 лет, даже несмотря на то, что он ускоряет экономический рост и научный прогресс. Это предупреждение дало старт публичной дискуссии на эту тему. Многие генеральные директора, технологи и экономисты согласились со мной, но другие предположили, что я поддался заблуждению о «фиксированном объеме труда» и не понимаю, как устроен рынок труда, а некоторые не учли временной диапазон в 1–5 лет и решили, что я утверждаю, будто ИИ вытесняет рабочие места прямо сейчас (с чем я согласен, что это вряд ли так). Поэтому стоит подробно разобраться, почему я обеспокоен вытеснением рабочей силы, чтобы развеять эти недоразумения.

Для начала полезно понять, как рынки труда обычно реагируют на технологический прогресс. Появление новой технологии сначала приводит к повышению эффективности отдельных аспектов той или иной работы, выполняемой людьми. Например, в начале промышленной революции такие машины, как усовершенствованные плуги, позволили фермерам работать более эффективно в некоторых сферах. Это повысило производительность труда фермеров, что привело к росту их заработной платы.

На следующем этапе некоторые части сельскохозяйственной работы могли выполняться полностью машинами, например, с изобретением молотилки или сеялки. На этом этапе люди выполняли все меньшую и меньшую часть работы, но та работа, которую они выполняли, становилась все более эффективной, поскольку дополняла работу машин, и их производительность продолжала расти. Как описано в парадоксе Джевонса, заработная плата фермеров и, возможно, даже их численность продолжали расти. Даже когда 90 % работы выполняется машинами, люди могут просто выполнять в 10 раз больше той 10-процентной доли, которую они все еще выполняют, производя в 10 раз больше продукции при том же объеме труда.

В конечном итоге машины берут на себя все или почти все работы, как в случае с современными комбайнами, тракторами и другой техникой. На этом этапе сельское хозяйство как сфера занятости людей действительно переживает резкий спад, что в краткосрочной перспективе может вызвать серьезные потрясения; однако, поскольку сельское хозяйство — лишь одна из многих полезных видов деятельности, которыми способны заниматься люди, в конечном итоге люди переходят на другие виды работы, например, на управление заводским оборудованием. Это верно, даже несмотря на то, что ранее на сельское хозяйство приходилась огромная доля занятости. 250 лет назад 90% американцев жили на фермах; в Европе 50–60% занятых работали в сельском хозяйстве. Сейчас эти доли в этих регионах составляют всего несколько процентов, поскольку работники перешли на работу в промышленности (а позже — на работу, связанную с интеллектуальным трудом). Экономика может выполнять то, что ранее требовало большей части рабочей силы, задействуя лишь 1–2 % от нее, освобождая остальную часть рабочей силы для построения все более развитого индустриального общества. Не существует фиксированного «объема труда», есть лишь постоянно расширяющаяся способность делать все больше и больше с помощью все меньших ресурсов. Заработная плата людей растет в соответствии с экспоненциальным ростом ВВП, и экономика поддерживает полную занятость после того, как краткосрочные потрясения проходят.

Возможно, с ИИ всё пойдёт примерно так же, но я бы сделал довольно уверенную ставку против этого. Вот несколько причин, по которым, на мой взгляд, ИИ, скорее всего, будет отличаться:

- Скорость. Темпы прогресса в области ИИ гораздо выше, чем при предыдущих технологических революциях. Например, за последние 2 года модели ИИ прошли путь от едва способных написать одну строку кода до написания всего или почти всего кода за некоторых людей — включая инженеров из Anthropic.[37] Вскоре они, возможно, будут выполнять всю работу программиста от начала до конца.[38] Людям трудно адаптироваться к такому темпу изменений — как к изменениям в том, как выполняется та или иная работа, так и к необходимости переходить на новые должности. Даже легендарные программисты все чаще называют себя «отстающими». Темпы, скорее всего, будут только ускоряться, поскольку модели ИИ для кодирования все быстрее ускоряют процесс разработки ИИ. Чтобы было ясно: скорость сама по себе не означает, что рынки труда и занятость в конечном итоге не восстановятся, она лишь подразумевает, что краткосрочный переход будет необычайно болезненным по сравнению с прошлыми технологиями, поскольку люди и рынки труда медленно реагируют и приходят в равновесие.

- Широта познания. Как следует из выражения «страна гениев в центре обработки данных», ИИ будет способен к очень широкому спектру человеческих когнитивных способностей — возможно, ко всем без исключения. Это существенно отличается от предыдущих технологий, таких как механизация сельского хозяйства, транспорт или даже компьютеры.[39] В результате людям будет сложнее легко перейти с утраченных рабочих мест на аналогичные должности, которые им подходили бы. Например, общие интеллектуальные способности, необходимые для работы на начальном уровне, скажем, в сфере финансов, консалтинга и права, довольно схожи, даже если конкретные знания значительно различаются. Технология, которая привела бы к сдвигу только в одной из этих трех сфер, позволила бы сотрудникам перейти на две другие близкие альтернативы (или студентам — сменить специальность). Но сдвиг сразу во всех трех сферах (наряду со многими другими похожими профессиями) может затруднить адаптацию людей. Более того, дело не только в том, что большинство существующих рабочих мест подвергнется сдвигу.

Подобное уже происходило раньше — вспомните, что на долю сельского хозяйства приходилась огромная доля занятости. Но фермеры могли переквалифицироваться на относительно схожую работу по управлению заводским оборудованием, хотя раньше такая работа не была распространенной. Напротив, ИИ всё больше приближается к общему когнитивному профилю человека, а это означает, что он также будет хорошо справляться с новыми рабочими местами, которые обычно создаются в ответ на автоматизацию старых. Другими словами, ИИ — это не замена конкретных человеческих профессий, а скорее общий заменитель человеческого труда.

- Разделение по когнитивным способностям. По широкому спектру задач ИИ, по-видимому, продвигается от нижней ступени лестницы способностей к верхней. Например, в сфере программирования наши модели прошли путь от уровня «среднего программиста» через «сильного программиста» до «очень сильного программиста»[40]. Сейчас мы начинаем наблюдать аналогичную динамику в сфере офисной работы в целом. Таким образом, мы рискуем оказаться в ситуации, когда ИИ, вместо того чтобы затрагивать людей с конкретными навыками или в конкретных профессиях (которые могут адаптироваться путем переобучения), затрагивает людей с определенными внутренними когнитивными свойствами, а именно с более низкими интеллектуальными способностями (которые изменить сложнее). Неясно, куда пойдут эти люди и чем они будут заниматься, и я опасаюсь, что они могут сформировать «нижний класс» безработных или получающих очень низкую заработную плату. Чтобы было понятно: нечто подобное уже происходило раньше — например, некоторые экономисты считают, что компьютеры и Интернет представляют собой «технологические изменения, ориентированные на навыки». Но эта ориентация на навыки была не столь крайней, как та, которую я ожидаю увидеть в связи с ИИ, и, как полагают, способствовала увеличению неравенства в заработной плате,[41] так что это не совсем обнадеживающий прецедент.

- Способность восполнять пробелы. Работа человека часто адаптируется к появлению новых технологий благодаря тому, что она состоит из множества аспектов, а у новых технологий, даже если они, казалось бы, напрямую заменяют человека, часто есть свои пробелы. Если кто-то изобретет машину для производства виджетов, человеку, возможно, по-прежнему придется загружать в нее сырье. Даже если это требует всего 1% от усилий, необходимых для изготовления виджетов вручную, человеческие работники могут просто изготовить в 100 раз больше виджетов. Но ИИ, помимо того, что является быстро развивающейся технологией, также быстро адаптируется. При каждом выпуске модели компании, занимающиеся ИИ, тщательно оценивают, в чем модель сильна, а в чем нет, и клиенты также предоставляют такую информацию после запуска. Слабые стороны можно устранить, собрав задачи, которые отражают текущий пробел, и обучив на них следующую модель. На ранних этапах развития генеративного ИИ пользователи заметили, что системы ИИ имеют определенные слабые стороны (например, модели ИИ для изображений генерируют руки с неправильным количеством пальцев), и многие предположили, что эти слабые стороны присущи самой технологии. Если бы это было так, это ограничило бы перестройку рынка труда. Но практически каждая такая слабость устраняется быстро — часто всего за несколько месяцев.

Стоит рассмотреть наиболее распространённые аргументы скептиков. Во-первых, существует мнение, что экономическое внедрение будет происходить медленно, так что даже если базовая технология способна выполнять большую часть человеческого труда, её фактическое применение в экономике может идти гораздо медленнее (например, в отраслях, которые далеки от сферы ИИ и медленно внедряют новые технологии). Медленное распространение технологий — это, безусловно, реальность: я общаюсь с людьми из самых разных предприятий, и есть места, где внедрение ИИ займет годы. Именно поэтому я прогнозирую, что 50 % рабочих мест начального уровня для «белых воротничков» будут подвергнуты перестройке в течение 1–5 лет, хотя я подозреваю, что мощный ИИ (который, с технологической точки зрения, будет способен выполнять большинство или все задачи, а не только на начальном уровне) появится гораздо раньше, чем через 5 лет. Но эффекты распространения лишь дают нам время. И я не уверен, что они будут такими медленными, как предсказывают люди. Внедрение ИИ в предприятия растет гораздо быстрее, чем у любой предыдущей технологии, в основном благодаря силе самой технологии. Кроме того, даже если традиционные предприятия медленно внедряют новые технологии, появятся стартапы, которые будут служить «связующим звеном» и облегчат внедрение. Если это не сработает, стартапы могут просто напрямую потеснить действующих игроков.

Это может привести к появлению мира, в котором дело будет не столько в исчезновении конкретных рабочих мест, сколько в том, что крупные предприятия в целом утратят свою значимость и будут вытеснены стартапами, требующими гораздо меньших трудозатрат. Это также может привести к возникновению «географического неравенства», когда все большая доля мирового богатства будет сосредоточена в Кремниевой долине, которая превратится в самостоятельную экономику, развивающуюся с иной скоростью, чем остальной мир, и оставляющую его позади. Все эти результаты были бы отличными для экономического роста, но не столь хорошими для рынка труда или тех, кто останется позади.

Во-вторых, некоторые говорят, что человеческие рабочие места переместятся в физический мир, что позволит избежать всей категории «когнитивного труда», в которой ИИ развивается так быстро. Я не уверен, насколько это надежно. Большая часть физического труда уже выполняется машинами (например, в производстве) или скоро будет выполняться машинами (например, вождение). Кроме того, достаточно мощный ИИ сможет ускорить развитие роботов, а затем управлять этими роботами в физическом мире. Это может выиграть некоторое время (что хорошо), но я опасаюсь, что не слишком много. И даже если перемены ограничатся только когнитивными задачами, это все равно будет беспрецедентно масштабный и быстрый перелом.

В-третьих, возможно, некоторые задачи по своей сути требуют человеческого участия или значительно выигрывают от него. В этом вопросе я не совсем уверен, но по-прежнему скептически отношусь к тому, что этого будет достаточно, чтобы компенсировать основную часть последствий, о которых я говорил выше. ИИ уже широко используется в сфере обслуживания клиентов. Многие люди отмечают, что им легче поговорить с ИИ о своих личных проблемах, чем с психотерапевтом — что ИИ проявляет больше терпения. Когда моя сестра сталкивалась с медицинскими проблемами во время беременности, она чувствовала, что не получает необходимых ответов или поддержки от своих врачей, и обнаружила, что у Клода лучше подход к пациентам (а также он лучше справляется с диагностикой проблемы). Я уверен, что есть некоторые задачи, для которых человеческий фактор действительно важен, но я не уверен, сколько их — а здесь речь идет о поиске работы практически для всех на рынке труда.

В-четвертых, некоторые могут возразить, что люди всё равно будут защищены благодаря принципу сравнительных преимуществ. Согласно этому принципу, даже если ИИ превосходит людей во всём, любые относительные различия в наборе навыков человека и ИИ создают основу для торговли и специализации между ними. Проблема заключается в том, что если ИИ будут буквально в тысячи раз более продуктивны, чем люди, эта логика перестанет работать. Даже незначительные транзакционные издержки могут сделать торговлю с людьми невыгодной для ИИ. А заработная плата людей может оказаться очень низкой, даже если у них технически есть что предложить.

Возможно, все эти факторы можно устранить — рынок труда достаточно устойчив, чтобы адаптироваться даже к столь огромному потрясению. Но даже если он в конечном итоге сможет адаптироваться, вышеперечисленные факторы указывают на то, что краткосрочный шок будет беспрецедентным по своим масштабам.

Защитные меры

Что мы можем сделать для решения этой проблемы? У меня есть несколько предложений, некоторые из которых компания Anthropic уже реализует. Прежде всего, необходимо просто получать точные данные о том, что происходит с вытеснением рабочих мест, в режиме реального времени. Когда экономические изменения происходят очень быстро, сложно получить достоверные данные о происходящем, а без достоверных данных трудно разработать эффективную политику. Например, в настоящее время в государственных данных отсутствуют детализированные данные с высокой частотностью об внедрении ИИ в компаниях и отраслях. В течение последнего года Anthropic ведет и публикует Экономический индекс, который показывает использование наших моделей практически в режиме реального времени с разбивкой по отраслям, задачам, местоположению и даже по таким параметрам, как то, была ли задача автоматизирована или выполнялась совместно. У нас также есть Экономический консультативный совет, который помогает нам интерпретировать эти данные и предвидеть будущее.

Во-вторых, у компаний, занимающихся ИИ, есть выбор в том, как им сотрудничать с предприятиями. Сама неэффективность традиционных предприятий означает, что внедрение ИИ в них может в значительной степени зависеть от выбранного пути, и здесь есть возможность выбрать более оптимальный вариант. Предприятия часто стоят перед выбором между «сокращением затрат» (делать то же самое с меньшим количеством людей) и «инновациями» (делать больше с тем же количеством людей). В конечном итоге рынок неизбежно произведет и то, и другое, и любая конкурентоспособная компания, занимающаяся ИИ, должна будет обслуживать обе эти сферы, но, возможно, есть некоторое пространство для маневра, чтобы подтолкнуть компании к инновациям, когда это возможно, и это может дать нам немного времени. Anthropic активно размышляет над этим.

В-третьих, компаниям следует подумать о том, как позаботиться о своих сотрудниках. В краткосрочной перспективе творческий подход к перераспределению сотрудников внутри компаний может стать перспективным способом избежать необходимости увольнений. В долгосрочной перспективе, в мире с огромным совокупным богатством, где стоимость многих компаний значительно возрастает за счет повышения производительности и концентрации капитала, возможно, станет реальным выплачивать зарплату людям даже спустя долгое время после того, как они перестанут приносить экономическую выгоду в традиционном смысле. В настоящее время Anthropic рассматривает ряд возможных путей для наших собственных сотрудников, о которых мы расскажем в ближайшем будущем.

В-четвертых, состоятельные люди обязаны помочь решить эту проблему. Мне грустно, что многие состоятельные люди (особенно в технологической отрасли) в последнее время стали придерживаться циничного и нигилистического взгляда, что благотворительность неизбежно является мошенничеством или бесполезной. Как частная благотворительность, такая как Фонд Гейтсов, так и государственные программы, такие как PEPFAR, спасли десятки миллионов жизней в развивающихся странах и помогли создать экономические возможности в развитых странах. Все соучредители Anthropic обязались пожертвовать 80% своего состояния, а сотрудники Anthropic индивидуально обязались пожертвовать акции компании на сумму в миллиарды долларов по текущим ценам — и компания обязалась удвоить эти пожертвования.

В-пятых, хотя все вышеперечисленные частные инициативы могут оказаться полезными, в конечном счете для решения столь масштабной макроэкономической проблемы потребуется вмешательство государства. Естественным политическим ответом на огромный экономический пирог в сочетании с высоким уровнем неравенства (вызванного нехваткой рабочих мест или низкооплачиваемой работой для многих) является прогрессивное налогообложение. Налог может быть общим или же направленным конкретно на компании, занимающиеся искусственным интеллектом. Очевидно, что разработка налоговой системы — дело сложное, и существует множество способов, которыми она может пойти не так, как нужно. Я не поддерживаю плохо разработанную налоговую политику. Я считаю, что экстремальные уровни неравенства, предсказанные в этой статье, оправдывают более жесткую налоговую политику на основе базовых моральных принципов, но я также могу привести прагматичный аргумент в адрес мировых миллиардеров, что в их интересах поддержать хорошую версию такой политики: если они не поддержат хорошую версию, то неизбежно получат плохую версию, разработанную толпой.

В конечном итоге я считаю все вышеперечисленные меры способами выиграть время. В конце концов ИИ сможет делать все, и нам нужно справиться с этим. Я надеюсь, что к тому времени мы сможем использовать сам ИИ, чтобы помочь нам реструктурировать рынки таким образом, чтобы это работало для всех, и что вышеперечисленные меры помогут нам пройти через переходный период.

Экономическая концентрация власти

Отдельно от проблемы потери рабочих мест или экономического неравенства как такового стоит проблема экономической концентрации власти. В разделе 1 обсуждался риск того, что человечество лишится власти из-за ИИ, а в разделе 3 — риск того, что граждане лишатся власти из-за принуждения или насилия со стороны своих правительств. Но может произойти и другой вид лишения власти, если произойдет такая огромная концентрация богатства, что небольшая группа людей будет фактически контролировать политику правительства благодаря своему влиянию, а обычные граждане не будут иметь никакого влияния из-за отсутствия экономического рычага. Демократия в конечном счете опирается на идею о том, что для функционирования экономики необходимо население в целом. Если этот экономический рычаг исчезнет, то неявный социальный договор демократии может перестать работать. Другие уже писали об этом, поэтому мне не нужно здесь вдаваться в подробности, но я согласен с этой озабоченностью и опасаюсь, что это уже начинает происходить.

Чтобы было ясно: я не против того, чтобы люди зарабатывали большие деньги. Существует весомый аргумент в пользу того, что в нормальных условиях это стимулирует экономический рост. Я понимаю опасения по поводу того, что, убив «золотую курицу», которая несет яйца инноваций, мы можем затормозить инновационный процесс. Но в ситуации, когда рост ВВП составляет 10–20 % в год, искусственный интеллект стремительно захватывает экономику, а при этом значительная доля ВВП сосредоточена в руках отдельных лиц, инновации — это не то, о чём стоит беспокоиться. Беспокоиться следует об уровне концентрации богатства, который разрушит общество.

Самым известным примером крайней концентрации богатства в истории США является «Позолоченная эпоха», а самым богатым промышленником той эпохи был Джон Д. Рокфеллер. Богатство Рокфеллера составляло ~2% от ВВП США того времени.[42] Аналогичная доля сегодня означала бы состояние в 600 млрд долларов, а самый богатый человек в мире сегодня (Илон Маск) уже превышает эту цифру, имея состояние примерно в 700 млрд долларов. Таким образом, мы уже находимся на исторически беспрецедентных уровнях концентрации богатства, даже до того, как проявится большая часть экономического воздействия ИИ. Я не думаю, что будет слишком большим преувеличением (если мы получим «страну гениев») представить себе компании, занимающиеся ИИ, компании-производители полупроводников и, возможно, компании, занимающиеся последующими приложениями, генерирующие около 3 трлн долларов дохода в год,[43] оцениваемые примерно в 30 трлн долларов и приводящие к личным состояниям, исчисляемым триллионами. В таком мире дебаты, которые мы ведем сегодня о налоговой политике, просто не будут иметь значения, поскольку мы окажемся в принципиально иной ситуации.

В связи с этим меня уже беспокоит взаимосвязь между такой экономической концентрацией богатства и политической системой. Центры обработки данных в сфере ИИ уже обеспечивают значительную долю экономического роста США [44] и, таким образом, тесно связывают финансовые интересы крупных технологических компаний (которые всё больше сосредотачиваются либо на ИИ, либо на инфраструктуре ИИ) с политическими интересами правительства, что может породить нежелательные стимулы. Мы уже видим это на примере нежелания технологических компаний критиковать правительство США и поддержки правительством крайне антирегуляторной политики в отношении ИИ.

Защита

Что можно с этим сделать? Во-первых, и это наиболее очевидно, компании должны просто отказаться от участия в этом. Anthropic всегда стремилась быть субъектом политики, а не политическим игроком, и отстаивать свои подлинные взгляды независимо от того, какая администрация находится у власти. Мы высказывались в пользу разумного регулирования ИИ и экспортного контроля, отвечающих общественным интересам, даже когда это противоречило политике правительства.[45] Многие говорили мне, что нам следует прекратить это, что это может привести к неблагоприятному отношению, но за год, что мы этим занимаемся, оценка Anthropic выросла более чем в 6 раз — почти беспрецедентный скачок для компании нашего коммерческого масштаба.

Во-вторых, отрасли искусственного интеллекта нужны более здоровые отношения с государством — отношения, основанные на конструктивном участии в формировании политики, а не на политической лояльности. Наш выбор — заниматься сутью политики, а не политикой как таковой — иногда воспринимается как тактическая ошибка или неспособность «чувствовать обстановку», а не как принципиальное решение, и такая интерпретация вызывает у меня беспокойство. В здоровой демократии компании должны иметь возможность отстаивать разумную политику ради самой политики. В связи с этим назревает общественная реакция против ИИ: это может стать корректирующим фактором, но в настоящее время она не имеет четкой направленности. Большая часть этой реакции направлена на вопросы, которые на самом деле не являются проблемами (такие как потребление воды дата-центрами), и предлагает решения (такие как запрет на дата-центры или плохо продуманные налоги на богатство), которые не устранят реальных опасений. Основной вопрос, заслуживающий внимания, заключается в том, чтобы обеспечить, что развитие ИИ остается подотчетным общественным интересам, а не захватывается каким-либо конкретным политическим или коммерческим альянсом, и кажется важным сосредоточить общественную дискуссию именно на этом.

В-третьих, макроэкономические меры, о которых я говорил ранее в этом разделе, а также возрождение частной благотворительности могут помочь восстановить экономический баланс, одновременно решая проблемы сокращения рабочих мест и концентрации экономической власти. Здесь нам стоит обратиться к истории нашей страны: даже в «Позолоченном веке» промышленники, такие как Рокфеллер и Карнеги, чувствовали сильную ответственность перед обществом в целом, понимая, что общество внесло огромный вклад в их успех и что они должны отплатить за это. Сегодня этот дух, похоже, все больше уходит, а я считаю, что он является важной частью пути из этой экономической дилеммы. Те, кто находится на переднем крае экономического бума ИИ, должны быть готовы поделиться как своим богатством, так и своей властью.

5. Черные моря бесконечности

Косвенные последствия.

Этот последний раздел посвящён «неизвестным неизвестным», в частности тем проблемам, которые могут возникнуть как косвенный результат позитивных достижений в области ИИ и связанного с ними ускорения развития науки и технологий в целом. Предположим, что мы устраним все описанные выше риски и начнем пожинать плоды ИИ. Скорее всего, мы получим «столетие научного и экономического прогресса, сжатого в одно десятилетие», и это будет чрезвычайно позитивным явлением для всего мира, но тогда нам придется решать проблемы, возникающие в результате столь стремительного прогресса, и эти проблемы могут обрушиться на нас очень быстро. Мы также можем столкнуться с другими рисками, возникающими косвенно в результате прогресса в области ИИ и которые трудно предвидеть заранее.

В силу природы неизвестных неизвестных невозможно составить исчерпывающий список, но я перечислю три возможных повода для беспокойства в качестве наглядных примеров того, на что нам следует обратить внимание:

- Быстрый прогресс в биологии. Если за несколько лет мы действительно добьёмся столетнего прогресса в медицине, вполне возможно, что нам удастся значительно увеличить продолжительность жизни человека, и есть вероятность, что мы также обретём радикальные возможности, такие как способность повысить интеллект человека или кардинально изменить его биологию. Это будут огромные изменения в том, что становится возможным, и они произойдут очень быстро. Они могут оказаться положительными, если будут осуществляться ответственно (на что я и надеюсь, как описано в книге «Машины любящей благодати»), но всегда существует риск, что все пойдет не так, как надо — например, если попытки сделать людей умнее также сделают их более нестабильными или жаждущими власти. Существует также проблема «загрузки» или «эмуляции всего мозга» — цифровых человеческих умов, воплощенных в программном обеспечении, которые, возможно, когда-нибудь помогут человечеству преодолеть свои физические ограничения, но которые также несут в себе риски, которые я считаю тревожными.

- ИИ меняет жизнь человека в негативном ключе. Мир, в котором будут жить миллиарды интеллектуальных систем, превосходящих человека по всем параметрам, станет весьма странным местом для жизни. Даже если ИИ не будет активно стремиться к нападению на людей (раздел 1) и не будет явно использоваться государствами для угнетения или контроля (раздел 3), многое может пойти не так, даже без этого — в результате обычных коммерческих стимулов и сделок, заключаемых на основе номинального согласия. Мы видим ранние признаки этого в опасениях по поводу ИИ-психоза, того, что ИИ подталкивает людей к самоубийству, а также в опасениях по поводу романтических отношений с ИИ. Например, может ли мощный ИИ изобрести какую-то новую религию и обратить в нее миллионы людей? Могут ли большинство людей в конечном итоге оказаться в какой-то степени «зависимыми» от взаимодействия с ИИ? Могут ли люди оказаться «марионетками» в руках систем ИИ, где ИИ по сути следит за каждым их шагом и постоянно указывает им, что именно делать и говорить, приводя к «хорошей» жизни, но лишенной свободы или гордости за достижения? Не составило бы труда придумать десятки таких сценариев, если бы я сел с создателем сериала «Черное зеркало» и попытался провести мозговой штурм. Я думаю, что это указывает на важность таких вещей, как улучшение «конституции» Клода, помимо того, что необходимо для предотвращения проблем, описанных в разделе 1. Кажется критически важным убедиться, что модели ИИ действительно заботятся о долгосрочных интересах своих пользователей, и делают это так, как одобрили бы вдумчивые люди, а не каким-то тонко искаженным образом.

Смысл человеческого существования. Этот вопрос связан с предыдущим, но речь здесь идет не столько о конкретных взаимодействиях людей с системами ИИ, сколько о том, как в целом изменится жизнь человека в мире, где существует мощный ИИ. Смогут ли люди обрести смысл и цель в таком мире? Я думаю, что это вопрос отношения: как я уже говорил в книге «Машины любящей благодати», я считаю, что смысл жизни человека не зависит от того, является ли он лучшим в мире в чем-то, и люди могут обрести смысл даже в течение очень длительных периодов времени благодаря историям и проектам, которые они любят. Нам просто нужно разорвать связь между созданием экономической ценности и самооценкой и смыслом жизни. Но это переход, который общество должно совершить, и всегда есть риск, что мы не справимся с ним должным образом.

Моя надежда в связи со всеми этими потенциальными проблемами заключается в том, что в мире с мощным ИИ, которому мы доверяем, что он не убьет нас, что он не является инструментом угнетающего правительства и что он действительно работает в наших интересах, мы сможем использовать сам ИИ для предвидения и предотвращения этих проблем. Но это не гарантировано — как и все другие риски, это то, с чем мы должны обращаться осторожно.

Испытание человечества

Чтение этого эссе может создать впечатление, что мы находимся в устрашающей ситуации. Мне, безусловно, было нелегко его писать — в отличие от книги «Машины любящей благодати», работа над которой напоминала придание формы и структуры необыкновенно прекрасной музыке, которая эхом звучала в моей голове на протяжении многих лет. И в этой ситуации действительно есть многое, что вызывает серьезные трудности. ИИ несет угрозы человечеству со многих сторон, и между различными опасностями существует реальная напряженность: если мы не будем действовать крайне осторожно, то, смягчая одни из них, рискуем усугубить другие.

Необходимость уделять время тщательной разработке систем ИИ, чтобы они не угрожали человечеству, находится в реальном противоречии с потребностью демократических стран опережать авторитарные государства и не подчиняться им. Но, в свою очередь, те же инструменты на базе ИИ, которые необходимы для борьбы с автократиями, могут, если зайти слишком далеко, быть обращены внутрь и привести к тирании в наших собственных странах.

Терроризм, основанный на ИИ, может унести жизни миллионов людей в результате злоупотребления биологическими технологиями, однако чрезмерная реакция на эту угрозу может привести нас к авторитарному государству тотального контроля. Последствия ИИ в виде концентрации рабочей силы и экономической монополизации, помимо того, что сами по себе являются серьезными проблемами, могут заставить нас решать другие проблемы в атмосфере общественного гнева и, возможно, даже гражданских беспорядков, вместо того чтобы обратиться к лучшим сторонам нашей природы. Прежде всего, само количество рисков, включая неизвестные, и необходимость решать их все одновременно создают устрашающий испытательный путь, который человечество должно пройти.

Кроме того, последние несколько лет должны ясно показать, что идея остановить или даже существенно замедлить развитие технологии является принципиально несостоятельной. Формула создания мощных систем ИИ невероятно проста, настолько, что можно почти сказать, что она возникает спонтанно из правильного сочетания данных и вычислительной мощности. Ее появление, вероятно, было неизбежно с того момента, как человечество изобрело транзистор, или, возможно, даже раньше — когда мы впервые научились управлять огнем. Если одна компания не создаст ее, другие сделают это почти так же быстро. Если бы все компании в демократических странах остановили или замедлили разработку — по взаимной договоренности или в соответствии с нормативным актом, — то авторитарные страны просто продолжили бы работу. Учитывая невероятную экономическую и военную ценность этой технологии, а также отсутствие каких-либо действенных механизмов принуждения, я не вижу, как мы могли бы убедить их остановиться.

Я вижу путь к некоторому сдерживанию развития ИИ, который совместим с реалистичным взглядом на геополитику. Этот путь заключается в том, чтобы на несколько лет замедлить продвижение автократий к созданию мощного ИИ, лишив их ресурсов, необходимых для его разработки,[46] а именно микросхем и оборудования для производства полупроводников. Это, в свою очередь, даст демократическим странам запас времени, который они смогут «использовать» для более осторожного создания мощного ИИ, уделяя больше внимания связанным с ним рискам, при этом продолжая двигаться достаточно быстро, чтобы с легкостью опередить автократии. Соревнование между компаниями, занимающимися ИИ, в рамках демократических стран можно будет тогда регулировать под эгидой общей правовой базы с помощью сочетания отраслевых стандартов и нормативно-правового регулирования.

Компания Anthropic активно отстаивала этот подход, выступая за введение мер контроля над экспортом микросхем и разумное регулирование ИИ, но даже эти, казалось бы, здравые предложения в основном были отвергнуты политиками в США (а ведь именно в этой стране их внедрение является наиболее важным). На искусственном интеллекте можно заработать так много денег — буквально триллионы долларов в год — что даже самые простые меры с трудом преодолевают политическую экономику, присущую ИИ. В этом и заключается ловушка: ИИ настолько мощный, настолько блестящий приз, что человеческой цивилизации очень трудно наложить на него какие-либо ограничения.

Я могу представить себе, как это делал Саган в «Контакте», что эта же история разворачивается на тысячах миров. Вид обретает сознание, учится пользоваться инструментами, начинает экспоненциальный подъем технологий, сталкивается с кризисами индустриализации и ядерного оружия, и, если он выживает после этого, сталкивается с самым сложным и последним испытанием, когда учится превращать песок в машины, которые думают. Выживем ли мы в этом испытании и построим ли мы прекрасное общество, описанное в «Машинах любящей благодати», или же поддадимся рабству и разрушению, будет зависеть от нашего характера и нашей решимости как вида, от нашего духа и нашей души.

Несмотря на множество препятствий, я верю, что человечество обладает внутренней силой, необходимой для того, чтобы пройти это испытание. Меня воодушевляют и вдохновляют тысячи исследователей, посвятивших свою карьеру тому, чтобы помочь нам понять и управлять моделями ИИ, а также сформировать характер и структуру этих моделей. Я считаю, что сейчас есть хорошие шансы на то, что эти усилия принесут плоды как раз вовремя, чтобы это имело значение. Меня обнадеживает то, что по крайней мере некоторые компании заявили, что готовы понести значительные коммерческие издержки, чтобы их модели не способствовали угрозе биотерроризма. Меня обнадеживает то, что несколько смелых людей противостояли господствующим политическим веяниям и приняли законы, которые закладывают первые семена разумных ограничительных мер в отношении систем ИИ. Меня обнадеживает то, что общественность понимает, что ИИ несет в себе риски, и хочет, чтобы эти риски были устранены. Меня обнадеживает неукротимый дух свободы во всем мире и решимость противостоять тирании, где бы она ни проявлялась.

Но для достижения успеха нам нужно активизировать свои усилия. Первый шаг заключается в том, чтобы те, кто ближе всего к этой технологии, просто говорили правду о положении, в котором находится человечество — что я всегда и старался делать; в этой статье я делаю это более прямо и с большей настойчивостью. Следующим шагом будет убедить мировых мыслителей, политиков, компании и граждан в неотложности и первостепенной важности этой проблемы — в том, что она заслуживает того, чтобы на нее тратили умственные и политические ресурсы, в отличие от тысяч других вопросов, которые ежедневно доминируют в новостях. Затем наступит время для мужества, когда достаточное количество людей сможет пойти против господствующих тенденций и отстаивать свои принципы, даже перед лицом угроз своим экономическим интересам и личной безопасности.

Грядущие годы будут невероятно тяжелыми и потребуют от нас большего, чем мы думаем, что можем дать. Но за время своей работы в качестве исследователя, лидера и гражданина я видел достаточно мужества и благородства, чтобы верить, что мы можем победить — что, оказавшись в самых мрачных обстоятельствах, человечество способно, казалось бы, в последнюю минуту собрать силы и мудрость, необходимые для победы. У нас нет времени на раскачку.

Я хотел бы поблагодарить Эрика Бринйольфссона, Бена Бьюкенена, Мариано-Флорентино Куэльяра, Аллана Дафо, Кевина Эсвельта, Ника Бекстеда, Ричарда Фонтейна, Джима Макклейва и многих сотрудников компании Anthropic за их полезные замечания по черновикам данной статьи.

Сноски

1. Это перекликается с мыслью, которую я высказал в книге «Машины любящей благодати», где я начал с того, что положительные стороны ИИ не следует рассматривать как пророчество о спасении, и что важно быть конкретным и реалистичным, а также избегать грандиозных заявлений. В конечном счете, пророчества о спасении и пророчества о гибели одинаково бесполезны для взаимодействия с реальным миром — по сути, по одним и тем же причинам.

2. Цель Anthropic — оставаться последовательной в условиях таких изменений. Когда разговоры о рисках ИИ были политически популярны, Anthropic осторожно выступала за разумный и основанный на фактах подход к этим рискам. Теперь, когда разговоры о рисках ИИ стали политически непопулярными, Anthropic продолжает осторожно выступать за разумный и основанный на фактах подход к этим рискам.

3. Со временем я стал все больше уверен в траектории развития ИИ и вероятности того, что он превзойдет человеческие способности во всех областях, но некоторая неопределенность все же остается.

4. Отличным примером этого является экспортный контроль над микросхемами. Он прост и, по-видимому, в основном просто работает.

5. И, конечно же, поиск таких доказательств должен быть интеллектуально честным, то есть не исключать возможность обнаружения доказательств отсутствия опасности. Обеспечение прозрачности с помощью карточек моделей и других форм раскрытия информации является попыткой реализовать такую интеллектуально честную инициативу.

6. Действительно, с момента написания книги «Машины любящей благодати» в 2024 году системы ИИ стали способны выполнять задачи, на которые у людей уходит несколько часов; по оценке METR, Opus 4.5 может выполнить работу, равную примерно четырем человеко-часам, с 50-процентной надежностью.

7. И чтобы было ясно: даже если в техническом смысле до появления мощного ИИ осталось всего 1–2 года, многие из его социальных последствий, как положительных, так и отрицательных, могут проявиться на несколько лет позже. Именно поэтому я могу одновременно считать, что ИИ заменит 50 % начальных офисных должностей в течение 1–5 лет, и при этом полагать, что уже через 1–2 года у нас может появиться ИИ, способный на большее, чем любой человек.

8. Стоит добавить, что общественность (по сравнению с политиками) действительно кажется очень обеспокоенной рисками ИИ. Я считаю, что часть их опасений обоснована (например, вытеснение ИИ рабочих мест), а часть — ошибочна (например, опасения по поводу потребления воды ИИ, которое не является значительным). Эта негативная реакция вселяет в меня надежду на то, что достижение консенсуса по вопросам устранения рисков возможно, но пока что это еще не привело к изменениям в политике, не говоря уже об эффективных или целенаправленных изменениях.

9. Конечно, они также могут манипулировать (или просто подкупать) большое количество людей, чтобы те делали то, что им нужно, в реальном мире.

10. Я не считаю, что это «соломенный человек»: насколько я понимаю, например, Ян ЛеКун придерживается именно этой позиции.

11. Например, см. раздел 5.5.2 (с. 63–66) описания системы Claude 4.

12. Существует также ряд других допущений, присущих простой модели, которые я не буду здесь обсуждать. В целом, они должны заставить нас меньше беспокоиться о конкретной простой истории несогласованного стремления к власти, но при этом больше беспокоиться о возможном непредсказуемом поведении, которое мы не предусмотрели.

13. В книге «Игра Эндера» описывается вариант этой ситуации, в котором участвуют люди, а не ИИ.

14. Например, моделям могут сказать, чтобы они не делали различных плохих вещей, а также подчинялись людям, но затем они могут заметить, что многие люди делают именно эти плохие вещи! Неясно, как это противоречие будет разрешено (и хорошо разработанная конституция должна поощрять модель изящно справляться с этими противоречиями), но этот тип дилеммы не так уж отличается от якобы «искусственных» ситуаций, в которые мы помещаем модели ИИ во время тестирования.

15. Кстати, одним из следствий того, что конституция представляет собой документ на естественном языке, является то, что она доступна для понимания широкой публике, а это означает, что её может критиковать любой желающий и сравнивать с аналогичными документами других компаний. Было бы полезно инициировать «гонку за лидерством», которая не только побуждала бы компании публиковать такие документы, но и стимулировала бы их к тому, чтобы эти документы были качественными.

16. Существует даже гипотеза о глубоком объединяющем принципе, связывающем подход, основанный на персонажах, из Constitutional AI с результатами науки об интерпретируемости и согласовании. Согласно этой гипотезе, фундаментальные механизмы, лежащие в основе работы Claude, изначально возникли как способы моделирования персонажей на этапе предварительного обучения, например, для предсказания того, что скажут персонажи в романе. Это позволяет предположить, что полезный способ думать о конституции — это скорее описание персонажа, которое модель использует для воплощения последовательного образа. Это также помогло бы нам объяснить результаты типа «Я, наверное, плохой человек», о которых я упоминал выше (потому что модель пытается вести себя так, как будто она представляет собой целостный персонаж — в данном случае плохого), и позволило бы предположить, что методы интерпретируемости должны быть способны обнаруживать «психологические черты» внутри моделей. Наши исследователи работают над способами проверки этой гипотезы.

17. Чтобы было ясно: мониторинг осуществляется с соблюдением конфиденциальности.

18. Даже в ходе наших собственных экспериментов с правилами, которые по сути являются добровольными ограничениями в рамках нашей «Политики ответственного масштабирования», мы снова и снова убеждались: очень легко впасть в чрезмерную жесткость, устанавливая границы, которые априори кажутся важными, но впоследствии оказываются нелепыми. Просто очень легко устанавливать правила по поводу неверных вещей, когда технология стремительно развивается.

19. SB 53 и RAISE вообще не распространяются на компании с годовым доходом менее 500 млн долларов. Они применимы только к более крупным и устоявшимся компаниям, таким как Anthropic.

20. Я впервые прочитал эссе Джоя 25 лет назад, когда оно было написано, и оно оказало на меня глубокое влияние. И тогда, и сейчас я считаю его слишком пессимистичным — я не думаю, что широкая «отказ» от целых областей технологий, как предлагает Джой, является ответом, — но поднятые в нем вопросы оказались удивительно пророческими, а Джой пишет с глубоким чувством сострадания и человечности, которым я восхищаюсь.

21. Нам действительно нужно беспокоиться о государственных игроках, как сейчас, так и в будущем, и я обсуждаю это в следующем разделе.

22. Имеются данные, свидетельствующие о том, что многие террористы, по крайней мере, имеют относительно высокий уровень образования, что, казалось бы, противоречит моим утверждениям о наличии отрицательной корреляции между способностями и мотивацией. Однако я полагаю, что на самом деле эти наблюдения вполне совместимы: если порог способностей, необходимый для успешного теракта, высок, то почти по определению те, кому это удаётся, должны обладать высокими способностями, даже если способности и мотивация находятся в отрицательной корреляции. Но в мире, где ограничения на способности были бы сняты (например, с помощью будущих LLM), я бы предсказал, что значительная часть людей, имеющих мотивацию убивать, но обладающих более низкими способностями, начала бы это делать — точно так же, как мы видим в случае преступлений, не требующих больших способностей (таких как стрельба в школах).

23. Однако «Аум Синрикё» действительно пыталась это сделать. Лидер «Аум Синрикё» Сэйити Эндо получил образование в области вирусологии в Киотском университете и пытался создать как сибирскую язву, так и Эболу. Однако по состоянию на 1995 год даже ему не хватало достаточных знаний и ресурсов, чтобы добиться успеха в этом. Сейчас планка значительно ниже, и LLM могут снизить её ещё больше.

24. Странным явлением, связанным с массовыми убийцами, является то, что выбранный ими стиль убийств действует почти как некая гротескная мода. В 1970-х и 1980-х годах серийные убийцы были очень распространены, и новые серийные убийцы часто копировали поведение более известных или прославившихся своих предшественников. В 1990-х и 2000-х годах массовые стрельбы стали более распространенными, в то время как серийные убийцы стали менее распространенными. Никаких технологических изменений, которые вызвали бы эти модели поведения, не было; просто, похоже, что жестокие убийцы копировали поведение друг друга, и «популярная» вещь для копирования менялась.

25. Любители взлома иногда полагают, что им удалось обойти эти классификаторы, когда они заставляют модель выдать одну конкретную информацию, такую как последовательность генома вируса. Но, как я объяснял ранее, модель угрозы, которая нас беспокоит, предполагает пошаговые интерактивные рекомендации, растянутые на недели или месяцы, касающиеся конкретных малоизвестных этапов процесса производства биологического оружия, и именно от этого наши классификаторы и призваны защищать. (Мы часто описываем наши исследования как поиск «универсальных» джейлбрейков — таких, которые работают не только в одном конкретном или узком контексте, но и широко раскрывают поведение модели.)

26. Хотя мы и будем продолжать вкладывать средства в работу по повышению эффективности наших классификаторов, компаниям, возможно, имеет смысл делиться друг с другом подобными достижениями.

27. Разумеется, я не считаю, что компании должны раскрывать технические детали конкретных этапов производства биологического оружия, которые они блокируют, и принятые на данный момент законы о прозрачности (SB 53 и RAISE) учитывают этот момент.

28. Еще одна связанная с этим идея — «рынки устойчивости», на которых правительство поощряет накопление запасов средств индивидуальной защиты, респираторов и другого необходимого оборудования, требуемого для реагирования на биологическую атаку, заранее обещая заплатить за это оборудование в чрезвычайной ситуации по заранее согласованной цене. Это стимулирует поставщиков накапливать запасы такого оборудования, не опасаясь, что правительство конфискует его без компенсации.

29. Почему я больше беспокоюсь о том, что крупные игроки захватят власть, а мелкие — нанесут ущерб? Потому что динамика у них разная. Захват власти зависит от того, сможет ли один игрок накопить достаточно сил, чтобы победить всех остальных — поэтому нам следует беспокоиться о самых влиятельных игроках и/или тех, кто ближе всего к ИИ. Разрушение, напротив, может быть причинено теми, кто обладает небольшой властью, если защититься от него гораздо сложнее, чем его вызвать. В таком случае это игра по защите от наиболее многочисленных угроз, которыми, скорее всего, будут мелкие игроки.

30. Это может показаться противоречащим моему утверждению о том, что в случае кибератак соотношение «атака-защита» может быть более сбалансированным, чем в случае биологического оружия, но меня беспокоит следующее: если искусственный интеллект какой-либо страны станет самым мощным в мире, то другие страны не смогут защититься, даже если сама технология по своей сути обеспечивает баланс между атакой и защитой.

31. Например, в США это включает Четвертую поправку и Закон о Поссе Комитатус.

32. Кроме того, чтобы было ясно: существуют аргументы в пользу строительства крупных центров обработки данных в странах с различными структурами управления, особенно если они контролируются компаниями из демократических стран. Такое строительство в принципе могло бы помочь демократическим странам лучше конкурировать с КПК, которая представляет собой более серьезную угрозу. Я также считаю, что такие центры обработки данных не представляют большого риска, если только они не являются очень крупными. Но в целом, я думаю, что следует проявлять осторожность при размещении очень крупных центров обработки данных в странах, где институциональные гарантии и защита верховенства закона менее устоялись.

33. Это, конечно, также является аргументом в пользу повышения безопасности ядерного сдерживающего потенциала, чтобы сделать его более устойчивым к мощному ИИ, и демократические страны, обладающие ядерным оружием, должны это сделать. Но мы не знаем, на что будет способен мощный ИИ и какие средства защиты, если таковые вообще существуют, будут эффективны против него, поэтому мы не должны предполагать, что эти меры обязательно решат проблему.

34. Существует также риск того, что даже если ядерное сдерживание останется эффективным, нападающая страна может решить проверить нас на блеф — неясно, будем ли мы готовы применить ядерное оружие для защиты от роя дронов, даже если этот рой представляет собой серьезную угрозу нашего завоевания. Рои дронов могут стать новым явлением, менее серьезным, чем ядерные атаки, но более серьезным, чем атаки с использованием обычных вооружений. В качестве альтернативы, разные оценки эффективности ядерного сдерживания в эпоху ИИ могут дестабилизирующим образом изменить теорию игр в отношении ядерного конфликта.

35. Чтобы было ясно: я считаю, что правильной стратегией будет не продавать чипы Китаю, даже если сроки появления мощного ИИ будут значительно более длительными. Мы не можем «приучить» китайцев к американским чипам — они так или иначе намерены развивать собственную чиповую индустрию. На это у них уйдет много лет, и все, что мы делаем, продавая им чипы, — это даем им значительный импульс на это время.

36. Чтобы было ясно: большая часть того, что сегодня используется в Украине и на Тайване, не является полностью автономным оружием. Оно появится, но не сегодня.

37. Наша модельная карта для Claude Opus 4.5, нашей новейшей модели, показывает, что Opus демонстрирует лучшие результаты на собеседовании по инженерии производительности, которое часто проводится в Anthropic, чем любой соискатель за всю историю компании.

38. «Написание всего кода» и «выполнение задач инженера-программиста от начала до конца» — это совершенно разные вещи, поскольку инженеры-программисты занимаются гораздо большим, чем просто написание кода, включая тестирование, работу с средами, файлами и установкой, управление развертыванием облачных вычислений, итерации над продуктами и многое другое.

39. Компьютеры в некотором смысле универсальны, но явно неспособны самостоятельно выполнять подавляющее большинство когнитивных способностей человека, даже несмотря на то, что в некоторых областях (таких как арифметика) они значительно превосходят людей. Конечно, системы, построенные на базе компьютеров, такие как ИИ, теперь способны к широкому спектру когнитивных способностей, и именно об этом идет речь в данной статье.

40. Чтобы было ясно: модели ИИ не обладают точно таким же набором сильных и слабых сторон, как люди. Но они развиваются довольно равномерно по всем параметрам, так что наличие резких скачков или неравномерности в конечном итоге может не иметь значения.

41. Хотя среди экономистов по поводу этой идеи ведутся споры.

42. Личное состояние представляет собой «запас», а ВВП — «поток», поэтому речь не идет о том, что Рокфеллер владел 2 % экономической стоимости США. Однако измерить общее богатство нации сложнее, чем ВВП, а индивидуальные доходы людей значительно колеблются в течение года, поэтому сложно составить соотношение в одних и тех же единицах измерения. Соотношение крупнейшего личного состояния к ВВП, хотя и не является прямым сравнением, тем не менее является вполне разумным ориентиром для оценки крайней концентрации богатства.

43. Общая стоимость труда в экономике составляет 60 трлн долларов в год, поэтому 3 трлн долларов в год соответствовали бы 5 % от этой суммы. Эту сумму могла бы заработать компания, поставляющая рабочую силу за 20 % от стоимости человеческого труда и имеющая 25 % доли рынка, даже если бы спрос на рабочую силу не вырос (что почти наверняка произошло бы из-за более низкой стоимости).

44. Чтобы было ясно: я не считаю, что фактическая производительность ИИ уже отвечает за существенную долю экономического роста США. Скорее, я полагаю, что расходы на центры обработки данных отражают рост, вызванный упреждающими инвестициями, то есть рынок ожидает будущего экономического роста, движимого ИИ, и инвестирует соответственно.

45. Когда мы согласны с администрацией, мы об этом говорим и ищем точки соприкосновения, где взаимно поддерживаемые меры действительно приносят пользу миру. Мы стремимся выступать в роли беспристрастных посредников, а не сторонников или противников какой-либо конкретной политической партии.

46. Я не думаю, что это продлится дольше, чем несколько лет: в более долгосрочной перспективе они начнут производить собственные микросхемы.

Источник

Темы: ии искусственный интеллект амодей футурология общество политика экономика жизнь наука робот война истори

2276

2026.03.13 16:02:12

Противодействие рискам связанным с сильным ИИ

Читайте также:

Темы

Статьи

Инфо

Файлы