Издательства меняют правила в связи с появлением ChatGPT

Издательства меняют правила в связи с ChatGPT

Пока ученые исследуют написанные искусственным интеллектом тексты, журналы разрабатывают новые правила. Многие просят авторов раскрывать информацию об использовании ChatGPT и других генеративных искусственных интеллектов.

"Мы только об этом и говорим с ноября", - говорит Патрик Франзен, директор по публикациям SPIE, международного общества по оптике и фотонике. Он имеет в виду ChatGPT, чат-бота с искусственным интеллектом (ИИ), представленного в том же месяце. В ответ на запрос ChatGPT может написать беглые и, как кажется, хорошо информированные отчеты, эссе и научные рукописи. Франзен и руководители других журналов обеспокоены этичностью и точностью такого контента и пытаются защитить научную литературу от потенциального наплыва рукописей, полностью или частично написанных компьютерными программами.

Некоторые издательства еще не сформулировали свою политику. Большинство из тех, кто сформулировал, избегают прямого запрета на тексты, созданные искусственным интеллектом, но просят авторов раскрывать информацию об использовании автоматизированных инструментов, как это, вероятно, сделает SPIE. Пока что у редакторов и рецензентов мало альтернатив, поскольку у них нет инструментов принуждения. Пока ни одно программное обеспечение не может последовательно обнаружить синтетический текст в большинстве случаев.

Когда онлайн-инструмент ChatGPT был доступен для бесплатного публичного использования, ученые были в числе тех, кто устремился опробовать его. (Создатель ChatGPT, американская компания OpenAI, с тех пор ограничила доступ для подписчиков). Многие отмечали его беспрецедентную и сверхъестественную способность создавать правдоподобно звучащий текст, насыщенный, казалось бы, фактическими деталями. ChatGPT и его собратья - включая "Бард" от Google, представленный в начале этого месяца для избранных пользователей, и "Галактику" от Meta, которая была ненадолго доступна для публичного использования в ноябре 2022 года - представляют собой алгоритмы ИИ, называемые большими языковыми моделями, обученные на огромном количестве образцов текста, взятых из Интернета. Программное обеспечение выявляет закономерности и взаимосвязи между словами, что позволяет моделям генерировать релевантные ответы на вопросы и подсказки.

В некоторых случаях полученный текст неотличим от того, что написали бы люди. Например, исследователи, читавшие рефераты медицинских журналов, сгенерированные ChatGPT, не смогли определить, что треть из них написана машиной, согласно препринту, опубликованному в декабре 2022 года. Ожидается, что разработчики ИИ создадут еще более мощные версии, в том числе специально обученные на научной литературе - перспектива, которая вызвала шок в индустрии научных публикаций.

Пока что ученые сообщают, что играют с ChatGPT, чтобы изучить его возможности, а некоторые из них указали ChatGPT в качестве соавтора в рукописях. Эксперты издательского дела опасаются, что такое ограниченное использование может перерасти во всплеск рукописей, содержащих значительные куски текста, написанного ИИ.

Руководителей журналов беспокоит вопрос точности. Если программа не получила достаточного количества обучающих данных для создания правильного ответа, она часто фабрикует ответ, обнаружили компьютерные ученые. В ноябре компания Meta удалила общедоступный интерфейс для Galactica, своей крупноязычной модели, предназначенной для ученых, всего через несколько дней после ее представления - пользователи обнаружили множество фактических ошибок в сгенерированном тексте. А исследование Sparrow, чат-бота для поиска информации, разработанного дочерней компанией Google в 2022 году, показало, что до 20% его ответов содержали ошибки. Текст ИИ также может быть предвзятым по отношению к устоявшимся научным идеям и гипотезам, содержащимся в контенте, на котором обучались алгоритмы. Редакторы журналов также беспокоятся об этике, полагая, что авторы, использующие текстовые генераторы, иногда представляют результаты так, как будто они их написали - нарушение, которое другие называют "айгиаризмом".

Новая политика многих журналов требует от авторов раскрытия информации об использовании инструментов генерации текста и запрещает указывать в качестве соавтора крупную языковую модель, такую как ChatGPT, чтобы подчеркнуть ответственность автора за точность текста. Это касается журнала Nature и всех журналов Springer Nature, сети JAMA и групп, консультирующих по вопросам передовой практики в издательском деле, таких как Комитет по этике публикаций и Всемирная ассоциация медицинских редакторов. Но по крайней мере одно издательство заняло более жесткую позицию: Семейство журналов Science в прошлом месяце объявило о полном запрете на сгенерированный текст. По словам главного редактора Холдена Торпа, журналы могут ослабить эту политику в будущем в зависимости от того, что научное сообщество решит считать приемлемым использованием генераторов текста. "Намного легче ослабить наши критерии, чем ужесточить их".

Некоторые издательские чиновники все еще прорабатывают детали, например, когда они могут попросить сотрудников журнала, редакторов или рецензентов изучить или проверить на достоверность сгенерированный текст, раскрытый авторами, - задачи, которые добавят дополнительную нагрузку к тому, что зачастую и так является тяжелой работой для добровольцев. Редакторы издательской группы Taylor & Francis, чьи грядущие правила, вероятно, потребуют раскрытия такого текста, иногда могут попросить авторов указать, какие части их рукописи были написаны компьютером, говорит Сабина Алам, директор по издательской этике и добросовестности. Поиск статей для включения в систематический обзор может быть законным использованием, если исследователь следует надлежащим методам при принятии решения о том, какие статьи включить, например, говорит она, в то время как вырезание и вставка в обзор или статью "не является нормальным, потому что это не ваша точка зрения". По ее словам, эта политика, вероятно, будет меняться по мере того, как издательская индустрия будет приобретать все больше опыта работы с такими рукописями. "Мы рассматриваем это как поэтапный подход. Это действительно ранние дни".

Руководители журналов также говорят, что они надеются отслеживать новую технологию с помощью других технологий: автоматических детекторов, которые могут отмечать синтетические тексты. Но это нелегко, говорит Доменик Розати, старший научный сотрудник компании scite.ai, которая разрабатывает программное обеспечение для научных издательств. "Мы еще далеко не достигли того момента, когда в науке, в частности, можно будет сказать, что очевидно, что [определенный текст был создан] машиной из-за его беглости или отсутствия правдивости".

Существующие детекторы оставляют желать лучшего. В прошлом месяце OpenAI представила свой "классификатор", который классифицирует присланные тексты по шкале от "вероятно", что они были написаны компьютером, до "очень маловероятно". Классификатор обучался на парных образцах человеческого текста и текста, сгенерированного компьютером, с помощью 34 алгоритмов от пяти различных компаний, включая саму OpenAI. Однако OpenAI признает ряд ограничений. Инструмент, который все еще находится в стадии разработки, правильно применяет ярлык "вероятно" только в 26% случаев. Люди могут обмануть его, отредактировав сгенерированный компьютером текст. И он может не всегда последовательно определять синтетический текст на темы, которые не были включены в обучающие данные. Компьютерные ученые говорят, что эти недостатки обычно присущи и другим детекторам.

Возможно, на горизонте появятся более совершенные решения. В декабре 2022 года компания OpenAI заявила, что работает над тем, как сделать генерируемый текст "водяным знаком". Она запрограммирует свои модели на вставку слов, орфографию и пунктуацию в определенном порядке, чтобы создать секретный код, обнаруживаемый поисковыми системами. А в прошлом месяце команда из Стэнфордского университета опубликовала препринт с описанием алгоритма DetectGPT, который, в отличие от других детекторов, не требует обучения. Этот алгоритм исследует текст, создавая несколько случайных вариаций и запрашивая генератор текста о том, какие версии он предпочитает. Степень, в которой генератор, разработанный OpenAI и похожий на ChatGPT, отдает предпочтение оригинальному тексту по сравнению с измененными версиями, постоянно отличается для текстов, написанных человеком и сгенерированных ИИ, что позволяет DetectGPT предсказать вероятность того, что образец был получен от конкретной машины. Но DetectGPT нуждается в дальнейшей разработке, прежде чем редакторы журналов смогут полагаться исключительно на его результаты, например, при принятии решений по рукописям, говорит Эрик Митчелл, докторант, возглавлявший команду из Стэнфорда. Компания TurnItIn, которая выпускает широко используемый детектор плагиата, на прошлой неделе заявила, что планирует вывести на рынок детектор синтетического текста уже в апреле. TurnItIn утверждает, что инструмент, обученный на академических текстах, может идентифицировать 97% текстов, созданных ChatGPT, с коэффициентом ложных срабатываний один к 100.

По словам Розати, еще одной вычислительной задачей является оценка фактической точности текста, сгенерированного роботом, и качества его резюме. Его фирма работает над автоматической программой проверки, которая будет изучать существующую научную литературу, чтобы определить, действительно ли конкретная цитата в рукописи представляет тот вывод, о котором говорится в рукописи, например. По словам Розати, этот инструмент может выявить ссылки, сфабрикованные машиной, а также неактуальные или неверные ссылки, предоставленные людьми.

Некоторые редакторы видят в появлении ChatGPT и его родственников как перспективу, так и опасность. Программисты разрабатывают и совершенствуют программное обеспечение, которое создает гипотезы, пишет компьютерный код и анализирует данные, например, чтобы сделать работу исследователей более эффективной и продуктивной. "Я вижу сценарии, в которых будут причины для беспокойства, но в то же время я вижу и огромные возможности для использования подобных инструментов", - говорит Магдалена Скиппер, главный редактор журнала Nature. "Как и в случае с любым инструментом, мы должны понимать ограничения. ... Это требует от нас пристального внимания к тому, как разрабатываются эти инструменты, как они используются и в каком контексте".

Источник: science.org

Темы: chatgpt ии искусственный интеллект наука работа труд openai издательства

331

2023.02.26 11:37:29

Издательства меняют правила в связи с появлением ChatGPT

Читайте также:

Темы

Статьи

Инфо

Файлы