05 ноября 2002
Обновлено 17.05.2023

Системы машинного перевода

Системы машинного перевода - изображение обложка

В переводе меньше всего надо привязываться к словам и больше к мысли. Н.В. Гоголь. Сфера применения компьютера постоянно расширяется. В стороне не остались ни домашнее хозяйство, ни промышленность, ни производство, ни государственные структуры. Особое значение ПК приобретает в науке, в частности в области создания искусственного интеллекта. Одним из практических приложений которого являются системы машинного перевода (СМП). Еще пять лет назад машина могла переводить лишь отдельные слова, а над способностью обработать целое предложение, не говоря уже о тексте, можно было лишь посмеяться. Такое положение оставалось неизменным на протяжении нескольких лет. Хотя СМП как коммерческие продукты существуют в РФ с 1990 года, пользоваться ими не спешил ни обыкновенный пользователь, ни профессиональный переводчик. Сегодня качество работы СМП сильно возросло. Конечно, до литературного (художественного) перевода еще далеко. Но помочь в работе профессиональному переводчику ПК способен, а обычному пользователю СМП просто необходима. Эта статья выходит за рамки обычного обзора софта. Мы не просто поможем выбрать СМП на основании проведенных тестов и ваших требований, но постараемся также разобраться в принципах машинного перевода (проникнуть внутрь этого сложного механизма) и выяснить причины ошибок, допускаемых СМП. Трудности выбора Сегодня в РФ существуют всего два программных продукта, способных качественно переводить тексты. Это “Сократ” (разработан компанией “Арсеналъ” ) и PROMT XT (продукция компании “ПРОМТ” ). Обе СМП имеют собственную историю и оригинальный “движок”. Под “движком” в данном случае понимается ядро, в котором воплощена технология машинного перевода. Сама технология включает в себя общепринятые принципы перевода (например, дословный перевод) и “ноу-хау”, являющееся секретом каждого продукта. С точки зрения программирования такой “движок” представляет собой функцию, получающую на входе слово, предложение или текст и возвращающую переведенный фрагмент. Вся остальная часть СМП — это высокоуровневый интерфейс, позволяющий пользоваться теми или иными возможностями. Каждая СМП имеет различные дистрибутивы для разных пользователей. Для перевода, помимо самой программы, нужны словари, разбитые по тематикам и поставляемые отдельно. PROMT XT Базис Мы будем рассматривать дистрибутив PROMT XT Office Giant , так как он предлагает максимум возможностей и дополнительных утилит. Глобальная интеграция ПО друг с другом не оставила в стороне и СМП. PROMT XT Office Giant позволяетинтегрировать себя в WinWord 97/2000/XP, Excel 97/2000/XP, MS Internet Explorer, MS Power Point, MS Front Page, MS Outlook и Acrobat Reader. Последняя возможность нужна для профессиональных переводчиков, так как им часто приходится работать с pdf-форматом. Нас она мало интересует. Давайте разберемся, что собой представляет работа с PROMT из других приложений. Например, в WinWord. Открыв любой офисный документ, вы можете использовать СМП тремя способами. Через появившийся пункт меню PROMT, новые кнопки панели инструментов, а также с помощью контекстного меню, вызываемого нажатием правой кнопки мыши. Никто не мешает вам назначить горячие клавиши для нужных пунктов меню (создав, таким образом, четвертый способ общения с СМП). Удобнее всего контекстное меню. Оно содержит раздел “Переводы”. Проведя над ним мышкой, вы откроете панель, содержащую переводы выделенного слова (у него может быть несколько значений). Так же есть возможность переводить текст небольшими фрагментами, абзацами и целиком. Для этого удобнее всего использовать кнопки панели инструментов. В них достаточно просто разобраться благодаря всплывающим подсказкам. Примерно так же обстоит дело и с MS Internet Explorer. PROMT XT может перевести страницу полностью или только выделенный фрагмент. При этом вы сами решаете, будет результат перевода выведен рядом с оригиналом или же заменит исходный. При обработке страницы целиком можно все настроить так, чтобы результат появлялся в новом окне. Перевод можно подсвечивать фоном нужного цвета. Также существует функция запроса на русском, переводе его на другой язык и отправления на какой-нибудь поисковый сервер. Поддерживаются Altavista, Yahoo!, Lycos и другие популярные узлы. Вообще же PROMT XT достаточно дружелюбен. Разобраться с его использованием в MS Outlook и Acrobat Reader достаточно просто. Вдобавок все утилиты, входящие в состав PROMT XT Office, а также программы их конфигурации размещаются в отдельной папке. PROMT ненавязчив. Интеграция и удаление осуществляются одним щелчком мыши. Основы перевода Наиболее удобным способом обработки текстов является использование PROMT XT в качестве самостоятельной программы. Для этого необходимо щелкнуть на Пуск/Программы/PROMT XT **

Системы машинного перевода - фото 1

Основное приложение PROMT XT Office.
Family/PROMT**. СМП предоставляет вам собственную визуальную оболочку, разработанную специально для переводчиков. Здесь все служит для облегчения вашего труда.На картинке видно, что основная часть экрана разделена на две части (как две панели в Norton Commander). Вы можете работать с текстами на русском и иностранном языках одновременно. Небольшие треугольники, размещенные в начале каждой строки, позволяют по фрагменту текста на одном языке быстро находить его перевод в другом окошке. Соответственно, не придется тратить время на поиски, просто щелкните на треугольник. PROMT все сделает сам. Это возможности, к сожалению, лишены СМП линейки “Сократ”. После обработки текста многие слова будут подчеркнуты разными цветами. Красным — незнакомые слова, зеленым — зарезервированные слова, синим — слова с несколькими возможными вариантами перевода, желтым — слова из подключенных специализированных

Системы машинного перевода - фото 2

словарей, розовым — слова из пользовательского словаря. Можно вести собственный пользовательский словарь, добавляя туда незнакомые для СМП слова (красный цвет). Зарезервированные слова (зеленый цвет) PROMT никогда не переводит. Синяя черта (под многозначными словами) помогает быстро найти те слова, в переводе которых СМП могла ошибиться. Помимо всего перечисленного, PROMT обладает многими мелкими приятными функциями: настройкой шрифта, работой с большинством текстовых форматов (MS Word, rtf, txt, html), созданием шаблонов, хранящих ваши настройки, автоматическим определением направления перевода (СМП сама решает, будете вы переводить с русского на английский или обратно). Чтобы лучше разобраться в особенностях программы, мы обратились к менеджеру по работе с корпоративными клиентами компании “ПРОМТ”, Евгению Стаханову.


“Игромания” [И]: Евгений, расскажите, пожалуйста, как “мыслят” СМП вообще и PROMT в частности. Евгений [Е]: При разработке системы машинного перевода решаются три задачи. Первое — это создание максимально большого словаря. Второе — обучение системы грамматике. Третье — обучение системы распознаванию как можно большего количества устойчивых языковых оборотов. [И]: Не могли бы вы подробнее осветить каждую из этих задач? [Е]: При создании словаря наиболее важно правильно структурировать информацию. Например, существительные в русском языке изменяются по падежам и по числам, то есть для одного существительного может существовать до 12 разных форм. Для того чтобы правильно переводить слова в разных формах, в переводчике существует описание морфологии. В системе PROMT разработано уникальное по полноте морфологическое описание для языков. Множество окончаний для каждого языка хранится в виде древесных структур, что обеспечивает эффективный анализ. [И]: А как обучить машину грамматике? [Е]: Система перевода — это не транслятор, ограниченный рамками входной грамматики. Это сложная система, которая получает результат при любых входных данных. Наша система относится к типу TRANSFER. Алгоритм перевода строится на трех процессах. Анализ входного предложения, преобразование этой структуры (TRANSFER) и затем синтез выходного предложения. Особенность PROMT’а в том, что метод TRANSFER применен нестандартно, с новым лингвистическим подходом. [И]: И в чем отличие? [Е]: Стандартный подход предполагает выделение анализа и синтеза всего предложения целиком. В основу PROMT’а положено представление процесса перевода как “объектно-ориентированной” организации. Если проще, то вместо последовательного TRANSFER’а всего предложения программа разделяет перевод на отдельные TRANSFER’ы. Язык — это живая, быстро изменяющаяся система: постоянно появляются новые слова, новые значения старых. Если пытаться анализировать все предложение целиком, то всего одно изменение в тексте застопорит процесс. А наша программа умеет узнавать отдельные части предложения и правильно их переводить. [И]: А в чем состоит ваше “ноу-хау”? [Е]: Нам удалось создать технологии на основе математического моделирования и нейронных сетей. В PROMT’е используются последние разработки в области семантического анализа и синтаксического разбора. В утилите есть лингвистические настройки, которые улучшают перевод специализированных текстов. [И]: Есть ли какие-нибудь тонкости в настройке PROMT до работы или во время перевода, позволяющие оптимизировать или упростить перевод? [Е]: Для получения качественного перевода текстов “нестандартной” тематики необходимо подключать специализированные словари. Пытаться перевести тексты по медицине или металлургии базовым словарем — бесполезно. Подключаются и отключаются словари кликом на чек-боксе в списке. Если часть необходимой терминологии есть в одном словаре, а часть в другом, то можно одновременно подключить несколько специализированных словарей. При подключении нескольких словарей нужно определить их приоритет. Словарь, содержащий наиболее близкую переводимому тексту лексику, должен иметь высший приоритет. Значимость словаря определяется его положением в списке словарей. Сначала берутся переводы из самого “верхнего” словаря, затем из следующего и так далее. Словарь общей лексики, который в списке не показан, используется в последнюю очередь. Следующий важный момент — это добавление нового списка слов. Это словарь пользователя, который необходим для настройки электронного переводчика. Ведь очевидно, что в базовом и специализированных словарях не будет абсолютно всех необходимых вам терминов. Для обработки новых терминов в нашей программе есть специальная опция — “Редактор словарей”. При добавлении слова в один словарь соответствующая словарная статья (или статьи, если переводов несколько) автоматически вводится в парный. [И]: Спасибо за ответы. Сократ Продукты компании " Арсеналъ " также

Системы машинного перевода - фото 3

интегрируются в MS Internet Explorer и MS Outlook. Что касается других приложений, то с ними дело обстоит иначе. “Сократ” обладает очень полезной функцией: вы можете перевести любое слово в любом Windows-приложении, просто выделив его и нажав Shift+правую кнопку мыши. Результат появится моментально во всплывающей подсказке. То, чего не хватает “Промту”. Такой способ позволяет переводить не только отдельные слова и их сочетания, но и предложения и абзацы. Пожалуй, это основное достоинство “Сократа”. Для того чтобы воспользоваться " Сократом Персональным " (от " Профессионального " он отличается отсутствием дополнительных словарей), надо либо запустить основное приложение СМП и там открыть необходимый документ, либо поместить ваш входной текст в буфер обмена и после этого запустить СМП. В последнем случае текст переведется автоматически ( Сократ сам определит направление перевода). Что касается настроек, то они являются воплощением тезиса “Краткость — сестра таланта”. Сократ предлагает пользователю лишь самые общие настройки, имеющие с процессом перевода мало общего. Однако это не мешает этой СМП конкурировать с таким титаном, как PROMT XT. В “Сократе” отсутствует возможность находить переведенный фрагмент текста автоматически, используя оригинал. Приходится тратить время. Также утилита не имеет системы подчеркивания. То есть возможности тонкой настройки существенно ограничены. Что касается интеграции СМП в другие продукты, то тут все просто. Три дополнительных кнопки в панели инструментов. С помощью первой можно перевести текущую страничку, вторая открывает окошко с настройками (здесь можно задать направление перевода и подключить/отключить дополнительные словари), последняя делит окно MS IE пополам. В верхней части появится перевод текста, а в нижней останется оригинал (вы можете читать оба текста параллельно). Помимо этого в контекстном меню появится пункт " Перевести ". Чтобы понять механизмы, лежащие в основе работы “Сократа”, мы обратились к менеджеру компании “Арсеналъ” Олегу Чекалину.


[И]: Олег, расскажите, как думают СМП и “Сократ” в частности. В чем плюсы “движка” вашей утилиты? Олег [О]: С системами машинного перевода (СМП) дело обстоит одновременно и просто, и сложно. Часто приходится слышать, что они не оправдывают своего названия. Что перевод слишком грубый, часто неточный. Что ж, это почти правда. Однако здесь дело здесь не столько в самих СМП, сколько в том, что их воспринимают как личность, способную понимать и транслировать чужую мысль. Слишком мы привыкли к тому, что человеческая речь (устная или письменная) — единственное средство для передачи информации. Но это не совсем так. Мы автоматически приписываем языку не свойственные ему функции. На самом деле, выражение “найти общий язык” относится скорее к сфере эмоционального контакта, а не к обмену информацией. Вот эта неувязка и всплыла на поверхность при попытке научить компьютер “работать” переводчиком. Идея, лежащая в основе переводчика, обманчиво проста. Любой студент может при известной заинтересованности запрограммировать простой механизм разбора текста и замены каждого встретившегося иностранного слова на соответствующее русское. Мы получим отличный буквальный перевод, так называемый “подстрочник”. К сожалению, понять написанное будет практически невозможно. Связность и осмысленность перевода при этом недостижимы из-за “бессилия” простого набора отдельных слов передать значение высказывания. Известно, что знаменитый напиток Coca-Cola на 99% состоит из воды и жженого сахара. Оставшийся один процент является самым страшным секретом компании-производителя. Если помнить об этом, когда мы говорим об устройстве ядра переводчика “Сократ”, то можно с уверенностью сказать что на 99% он состоит из специального переводного словаря и механизма автоматического формирования словоформ, то есть склонения, спряжения… Детальный разбор работы “мозга” машинного переводчика — тема, достойная не одной докторской диссертации. А подготовить и защитить такую диссертацию можно на факультете лингвистики РГГУ (Российского Государственного Гуманитарного Университета). [И]: “Сократ” очень прост в настройках, но наверняка вы можете дать несколько советов. [О]: Переводить тексты с помощью “Сократа” предельно просто. Процесс интуитивно понятен каждому и не нуждается в комментариях. Большинство настроек программы отражаются в первую очередь на удобстве работы. Можно добиться удобного именно для вас режима выполнения перевода. Автоматическое сворачивание окна программы при запуске, помещение результата перевода в буфер обмена и многое другое. Отдельно стоит упомянуть лишь одну функцию, делающую “Сократ” незаменимым помощником для тех, кто владеет английским языком на уровне “читаю и перевожу со словарем”. Утилита умеет быстро переводить фрагмент текста из любого приложения во всплывающей подсказке. В процессе чтения текста, например, в MS Word или страницы в IE, можно выделить встретившееся незнакомое слово или непонятную фразу, нажать Shift+правая кнопка мыши, и программа мгновенно покажет полный перевод в маленькой желтой подсказке рядом со стрелкой мыши. Никаких всплывающих окон. Никакого переключения между приложениями. [И]: Поставляются ли к “Сократу” дополнительные специализированный словари? [О]: С “СОКРАТ Интернет” поставляется несколько специализированных словарей, позволяющих точнее переводить тексты определенной тематики. [И]: Спасибо за ответы. PROMT XT vs. Сократ Персональный Сразу оговоримся, что тестировать отдельно СМП, встроенные в другие приложения (например, MS IE), мы не будем. Любая часть СМП использует один и тот же “движок”, поэтому результаты тестирования везде будут одинаковы. В качестве английского текста мы взяли часть предыстории к игре Heroes of Might and Magic IV. Оригинал выглядиттак: “Some prophecies of doom come true. Escape the flames licking at your back and jump quickly through a portal into another world for only the bold will be allowed to live. Embrace a wondrous new land. Uncover its ancient mysteries, battle its deadly creatures, and explore its forgotten past. Here lies gods who have been silent all too long. Here lies a realm that can only be claimed by the strong, the crafty, or the wise. It is yours to conquer!” Вариант “Сократа”: “Некоторые прорицания судьбы осуществляются. Избегите пламени лежа на вашей обратной стороне и прыжок быстро через портал в другой мир для только жирного шрифта будет позволен жить. Охватите (обнимать) чудную новую землю. Откройте свои древние тайны, боритесь свои чрезвычайно творения и изучайте свое забытое прошлое. Боги здесь лжи, которые были тихий все слишком долго (длиной). Здесь лежит (лгать) области, которая может только предъявлена прочным, ловкий, или мудрый. Это — ваше, чтобы завоевывать!” Результат PROMT XT: “Некоторые пророчества гибели осуществляются. Избегите облизывания огня в вашей спине, и скачку быстро через дверь в другой мир для только смелый будут позволять жить. Охватите невиданную Новую Землю. Раскройте его древние тайны, боритесь против его смертельных существ, и исследуйте его забытое прошлое. Здесь находится боги, которые были тихи слишком долго. Здесь находится царство, которое может только требоваться сильным, лукавым или мудрым. Ваше завоевать (победить)!” Правильный перевод литератора: “Пророчества сбываются. Спасайтесь от пламени, лижущего вашу спину, быстро прыгайте в другой мир через портал, ибо выживет лишь смелый. Повелевайте чудесной новой землей. Открывайте ее древние тайны, сражайтесь с ее смертельными созданиями и исследуйте ее забытое прошлое. Здесь спят Боги, так долго хранившие молчание. Здесь целый мир, который покорится только сильному, ловкому и мудрому. Завоюйте его!” Конечно, высказывание Гоголя (см. начало статьи) компьютеру не знакомо, и от всего машинного перевода веет подстрочником (дословным переводом). Но зачатки верного склонения и спряжения существительных уже есть. Возникает ощущение, что PROMT XT справился со своей задачей лучше. Слово “bold” он перевел корректно и уловил смысл двух предпоследних предложений. Также он верно определил падежи. Перевод позволяет понять мысль, заложенную в оригинал. Перевод “Сократа” очень похож на дословный: неправильный выбор значений при многозначности. Ведь слово “bold” означает не только “жирный шрифт”, а слово “lie” — не только “лгать”. Но смысл перевода разобрать тоже можно. В чем причина возникших ошибок? Да все в тех же трудностях, о которых говорили менеджеры конкурирующих продуктов. Это выбор значений в многозначных словах, а потом подбор соответствующих окончаний для них (также выбор множественного/единственного чисел и мужского/женского родов). Хотя некорректных результатов много, есть и абсолютно верные переводы, которых, безусловно, больше получилось у “Промта”. Помимо качества перевода нужно отметить его время. “Сократ” справился со своей задачей за пять-шесть секунд, а PROMT потратил времени примерно в 3-4 раза больше.


“Сократ” можно посоветовать тем, кому нечасто приходится переводить тексты. В этом случае его скорость, отсутствие тонких настроек и возможность получать перевод во всплывающей подсказке окажут неоценимую помощь в работе. Однако для профессионального переводчика он не так подходит, как “Промт”. СМП PROMT идеален для тех, кто переводит много и часто и кому важно качество результата. Тонкая настройка, пользовательский словарь, ассоциированная память… Все это удобно, когда нужно переводить сложные тексты и часто. А вот для человека, которому важно быстро и единожды перевести какой-то фрагмент, все это — помеха. Удачного вам перевода. И пускай никто не облизывает огонь в вашей спине…

Комментарии
Чтобы оставить комментарий, Войдите или Зарегистрируйтесь