Успехи машинного перевода

Успехи машинного перевода

Дни традиционных словарей (их можно назвать «аналоговыми» — по примеру и подобию устаревшей радиоаппаратуры), похоже, сочтены. Уже сейчас при переводе текстов или речевых сообщений с одного языка на другой всё чаще пользуются «цифровыми» словарями. Ведь прибегая к помощи таких электронных услуг, как Google Переводчик, можно без заминки переводить не только сообщения в несколько строк, наполняющие «Ленту новостей», но и огромные массивы текстов — даже с редких языков. В недалеком будущем пользователи Сети получат возможность открыть на языке оригинала сочинения видных немецких философов или хотя бы «Золотые рецепты итальянской кухни», а затем и проштудировать эти книги на своем родном языке.
 
Многие, правда, прочитав эту фразу, грустно и иронично усмехнутся. Они-то лучше нас, журналистов-утопистов, знают, каким посмешищем выглядит сегодня перевод, выполненный машиной, как много ошибок он содержит! Часто целые фрагменты текста бывают переведены (вернее: перевраны) с точностью до наоборот.
 
Всё дело в том, что автоматические системы перевода препарируют живой поток речи, где любое слово связано с другими, соседними словами, и превращают его в мертвенный набор отдельных слов. В итоге электронный переводчик сообщает значения каждого отдельного слова в тексте, но из них не складываются ни фразы, ни повествование в целом. Ведь большинство слов, используемых нами, многозначны. Машина чуть ли не наугад выбирает конкретные значения каждого из этих слов, а потому — по теории вероятности — часто промахивается, выхватывая совсем не то значение слова, которое имел в виду автор текста. В этой нестыковке значений и смыслов быстро теряется всякий смысл текста. Специалистам по информатике понятно, что любые фразы надо переводить не последовательно — слово в слово, а сразу, целиком — так, чтобы смысл отдельных слов можно было понять лишь из контекста сказанного. Но как научить этой «цветущей сложности» языка механически работающую машину?
 
В основе работы Google Переводчика сейчас лежит статистический метод. Компьютерная программа анализирует целый корпус двуязычных текстов, выбирая устойчивые словосочетания. Однако и его надо аттестовать как ненадежный. Опять назовем всё ту же неустранимую причину наших переводческих бед — многозначность слов. Повторюсь, 8 любом языке значения слов, использованных в предложении, зависят от того контекста, в котором они оказались. «Случайно столкнувшиеся звуки нам открывают философию, которой не знали бы мы, коснись древний мастер, что награждал обозначениями предметы, других сторон своей души, своей гармонии покоя».
 
Проблема ведь в необычайной пластичности любого языка. Одни и те же слова, пребывая в окружении других слов, разительно меняют свое значение. С некоторыми словами эта метаморфоза происходит десяток-другой раз. Стоит компьютерной программе ошибиться и машинально выбрать неуместное в этом контексте значение слова, как предложение рассыплется, словно стена здания, где все кирпичи соединены не цементом, а сыпучим песком. Часто смысл изувеченных фраз вообще не понять, не заглядывая в оригинальный текст.
Недаром опытные переводчики предпочитают не следовать покорно за оригиналом, вторя каждому оставленному для них слову, а интерпретируют иностранный текст, пересказывая его вольным, родным языком. Кажется, что с мастерством человека компьютерной программе, если она действует по старинке, никогда не сравниться.
 
Поэтому в основе машинного перевода должен лежать метод искусственных нейронных сетей, когда машина переводит не отдельные слова и даже не словосочетания, а все предложение в целом. Нейронные сети редко дают четкий, конкретный результат. Обычно они вычисляют лишь распределение вероятностей результатов. Иными словами, указывают, какова вероятность любого возможного результата.
 
Обращаясь к переводческому ремеслу, скажем, что, транслируя на другой язык, фразу «Женщина пошла в магазин купить лук», нейронная сеть указала бы, что существует вероятность, равная 99,999%, что она пошла купить зеленый лук или луковицы, и всего 0,001%, что ей понадобилось спортивное оружие. Машина должна это учитывать, выполняя перевод. Например, компьютерная программа «DeepL», разработанная немецкой компанией Linguee, при переводе любого предложения выбирает группу наиболее вероятных фраз — версий переводимого предложения и поочередно удлиняет каждую из них на одно слово, которое компьютер в данный момент переводит. Таким образом, программа учитывает и менее возможные варианты перевода предложения, а не отбрасывает их сразу же.
 
Весной прошлого года сенсацию произвела аналогичная программа, разработанная компанией Microsoft. Над ней сообща работали американские и китайские исследователи. Экзамен, который она держала, заключался в переводе 2000 предложений, взятых из различных китайских электронных изданий. Система переводила текст с китайского языка на английский, а затем автоматически переводила его обратно на китайский язык и сравнивала полученный текст с исходным, выявляя грубые ошибки и исправляя их — учась на них. Эту же работу выполнили и два профессиональных переводчика. Подготовленные ими тексты были ничем не лучше компьютерного перевода.
 
«Мы могли только мечтать о том, чтобы машинный перевод был не хуже перевода, выполненного профессионалами, — отмечает Сюдун Хуан, один из участников проекта. — Но мы даже не рассчитывали на то, что нам удастся сделать это так быстро».
 
Руководители компании «Майкрософт» назвали это событие «историческим прорывом, которого никто не ожидал». Ведь десятилетиями ученые пытались создать сносную программу перевода с китайского языка. Многие даже разуверились в том, что эта затея осуществима. Точный компьютерный перевод с китайского языка на английский (хотя бы для начала перевод новостных сообщений из КНР), уверены ученые, станет историческим событием, окончательно свяжет Китай с остальным миром.

Источник: Журнал "Занаие-Сила" №1, 2019 года

«Мы должны образовывать людей таким образом, чтобы общества не раскалывались на маленькие группы, воюющие друг с другом»

Митио Каку

Научный подход на Google Play

Файлы

За и против коммунизма. Собственность и её происхождение

Исследование о природе и причинах богатства народов

Слепой часовщик

Черты будущего