August 21st, 2016

В 1954 году занимающему несколько комнат компьютеру IBM 701 хватило словарного запаса в 250 слов и нескольких простых правил, чтобы точно перевести 60 фраз с русского на английский. Это достижение (знаменитый Джорджтаунский эксперимент) широко освещалось в СМИ, и власти США поверили в светлое будущее - машинный перевод текстов врага на английский уже через десять лет.

Однако этого не случилось. И вот почему...

Обратимся сначала к истории.

История машинного перевода берет начало в XVII веке, когда такими философами, как Лейбниц и Декарт было выдвинуто предположение о существовании некоего кода, соединяющего между собой слова разных языков. Все предположения носили гипотетический характер, и никому не удавалось в действительности создать машину для перевода.


Первые заявления на получение патента на «переводческую машину» были поданы в середине 30-х годов ХХ века. Одно заявление было подано французским изобретателем Ж. Арцруни, просто создавшим автоматический двуязычный словарь на перфоленте. Другое было сделано советским ученым Петром Троянским, чье изобретение было более детальным. Оно включало в себя, как двуязычный словарь, так и способы работы с грамматическими ролями между двумя языками на основе Эсперанто. Данная система представляла собой три этапа: первый заключался в следующем – редактор, носитель языка, должен был связать слова исходного языка (ИЯ) в логические формы в соответствии с синтаксическими функциями; на втором этапе машина должна была «перевести» все эти формы на язык перевода (ПЯ); а на третьем этапе носитель языка перевода занимался редактированием полученного результата. Его схема оставалась неизвестной до конца 50-х годов, когда появились ЭВМ.

Первый план по созданию машин для перевода на базе компьютеров был предложен Уорреном Уивером, исследователем Фонда Рокфеллера, в его меморандуме от июля 1949 года. Данные предложения базировались на теории информации, получившей успех во время Второй Мировой войны в связи с криптографией и распространения идеи об универсальных принципах естественных языков.

Несколько лет спустя, во всех университетах США началась исследовательская деятельность, связанная с машинным переводом. 7 января 1954 года фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первую демонстрацию новой системы машинного перевода, которая проходила в Нью-Йорке в головном офисе IBM. Результаты демонстрации были освещены в печати и привлекли большой общественный интерес. Система сама по себе была не более чем, по сегодняшним меркам, игрушечной, поскольку она использовала словарь из 250 слов и осуществила перевод с русского на английский 49 заранее отобранных предложений, имеющих химическую тематику. Однако демонстрация стимулировала распространение идеи о неотвратимости появления машинного перевода, а в частности привлечение финансирования в исследовательские институты не только на территории США, но и по всему миру.

Ранние системы использовали большие двуязычные словари и запрограммированные вручную правила, по выстраиванию на выходе слов в правильном порядке. В конечном итоге, такой способ был признан ограниченным, и развитие лингвистических наук, например, генеративной лингвистики или трансформационной грамматики, было нацелено на улучшение качества перевода.

В это время устанавливались операционные системы. Военно-воздушные силы США пользовались программой, разработанной компанией IBM и Вашингтонским университетом, в то время как комиссия по атомной энергии США и Евроатом в Италии пользовались системой, разработанной Джорджтаунским университетом. И хотя качество выхода было низким, система пользовалась популярностью среди потребителей, в связи с увеличением скорости перевода.

Вернемся к Джорджтаунскому эксперименту. Разумеется, у шоу-эксперимента, помимо научной, была и политическая сторона. Испытание советской атомной бомбы в 1949-м и запуск спутника в 1957-м показали США, что СССР не намерен уступать в научной гонке. Кроме того, чтобы понять, что вообще происходит за железным занавесом, не помешал бы быстрый перевод множества открытых и секретных документов на английский. Проект машинного перевода возник на пересечении интересов американских ученых, гражданских и военных, которые хотели читать советские научные публикации, и сотрудников разведки. Авторы проекта надеялись, что «научный русский», с его простыми фразами и ясной лексикой, позволит вычислительным машинам освоить и столь сложный, вариативный обычный русский язык.

Русские пишут!

К 1948 году на русском языке издавалось 33 процента научной литературы. На немецкий язык в золотые годы «тевтонской» науки приходилось 40 процентов. В частности, если в 1913 году русские тексты составляли 2,5 процента учитываемых Химической реферативной службой (Chemical Abstracts Service) публикаций, то в 1958-м - 17 процентов, заметно обойдя немецко- (10 процентов) и франкоязычные (5 процентов). Уже в 1944 году редактор издания предупреждал читателей о необходимости учить русский.

В конце XIX века американские ученые и инженеры научились читать по-немецки. Но кто же мог подумать, что за каких-то пять лет войны немецкий уйдет на периферию и придется осваивать таинственные кириллические символы! В 1953 году из 400 тысяч опрошенных ученых и инженеров свободно читали по-русски всего 400 человек.


Одна из перфокарт с фразой на русском

Ситуация осложнилась еще из-за политики Сталина. Борясь с «низкопоклонством перед Западом» и утечкой информации, в 1947 году в СССР закрыли все научные журналы на иностранных языках (Comptes rendus АН СССР, Acta Physicochimica и Journal of Physics of the USSR). Более того, перестали публиковать содержание журнала и резюме статей на иностранных языках - и теперь не знающие русского западные ученые даже не могли понять, чему вообще посвящены новые публикации.

С конца 1940-х и особенно после запуска советского спутника Конгресс США выделял десятки миллионов долларов на обучение русскому языку. Чтобы упростить задачу, сами исследователи выдвинули концепцию «научного» или «технического» русского, далекого от непостижимого языка Пушкина и Достоевского. Международная лексика, изобилие формул, простая грамматика должны были максимально облегчить обучение. Но особого прогресса в освоении русского не наблюдалось. Вот тут американцы и обратили свои взоры на новейшие технологии - вычислительные машины.


Машины, на помощь!

Пионером машинного перевода парадоксальным образом стал человек, далекий как от структурной лингвистики, так и от вычислительной техники - личный переводчик генерала Эйзенхауэра Леон Достер (Leon Dostert). Он родился в 1904 году во Франции. В Первую мировую, в годы германской оккупации Леон быстро выучил немецкий и был привлечен к работе в качестве переводчика. То же самое произошло, когда его родной город Лонгви заняли американцы: оценив таланты юного переводчика, офицеры оплатили его обучение в США. В 1939 году он уже был профессором французского в Джорджтаунском университете. После поражения Франции в 1940-м Достер принял американское гражданство и прошел войну в штабе Эйзенхауэра, дослужившись до полковника.

В 1945-м Достер на Международном военном трибунале в Нюрнберге фактически изобрел синхронный перевод - поскольку последовательный недопустимо удлинил бы и без того растянутый процесс. Ему принадлежит идея закрыть переводчиков в «аквариуме» и вести трансляцию речей к каждому из участников процесса индивидуально, через наушники. Все оборудование бесплатно представил приятель Достера Томас Уотсон, будущий президент IBM. Организовав аналогичную систему в ООН, Достер вернулся в университет на должность президента нового Института языков и лингвистики.

Неудивительно, что этот полиглот, судьбу которого радикально изменили две мировые войны, хотел предотвратить третью. Выступая в 1951 году на страницах ARMOR, журнала бронетанковых войск США, Достер скептически отозвался о боеспособности блока НАТО - именно из-за неспособности разноязычных солдат стран-участниц понимать друг друга.

Леон Достер

Спасение пришло с неожиданной стороны. Еще в годы войны перфокартные счетные машины IBM применялись не только для расчета траекторий снарядов и решения логистических задач, но и в криптографии. Это и навело Уоррена Уивера, сотрудника Фонда Рокфеллера, на идею машинного перевода. В 1947 году он написал письмо отцу кибернетики Норберту Винеру: «Проблему перевода можно решить как проблему криптографии. Когда я вижу статью на русском, я говорю себе: "На самом деле она написана на английском, но зашифрована странными символами, которые я декодирую"». Винер, владеющий несколькими языками, разгромил проект, указав на до сих пор не решенную проблему - у слов естественных языков, в отличие от цифр, слишком много смутных и неоднозначных значений, чтобы переводить механическим образом.

Но Уивер получал от Фонда достаточно средств, чтобы и дальше продвигать свои идеи. В 1952 году он спонсировал первую конференцию по машинному переводу, где были озвучены главные технические и философские проблемы этого проекта. Участвовал в симпозиуме и Достер - и быстро смекнул, что для успеха машинного перевода надо не спорить о фундаментальных проблемах, а сконструировать аппарат, который докажет всем осуществимость этой затеи.

Машина Достера опиралась на шесть базовых операций («правил») и, следовательно, могла переводить только предложения, где те применялись. Каждое из 250 слов лексикона кодировалось двумя числами, которые определяли бинарное дерево принятия решений. Компьютер выбирал между прямым и непрямым порядком слов, а также одним из двух словарных значений. При всей ограниченности средств результаты впечатляли: русские фразы латиницей забивались в машину (на перфокартах), и примерно через десять минут выдавался результат:

KRAXMAL VIRABATIVAYETSYA MYEKHANYICHYESKYIM PUTYEM YIZ KARTOFYELYA
Starch is produced by mechanical methods from potatoes

VYELYICHYINA UGLYA OPRYEDYELYAYETSYA OTNOSHYENYIYEM DLYINI DUGI K RADYIUSU
Magnitude of angle is determined by the relation of length of arc to radius

MI PYERYEDAYEM MISLYI POSRYEDSTVOM RYECHYI
We transmit thoughts by means of speech

Чем опасны деньги от ЦРУ

Сенсационный успех демонстрации 1954 года привлек к проектам Достера внимание ВМФ, ЦРУ и других подобных ведомств. Но силовики не спешили раскошеливаться. Тут неожиданную помощь оказал СССР. На статью о Джорджтаунском эксперименте обратил внимание отец советской кибернетики Алексей Ляпунов и вскоре создал в Математическом институте исследовательскую группу. За ним последовал Дмитрий Панов из Института точной математики и вычислительной техники, а к 1958 году машинным переводом занимались уже 79 различных учреждений.

Достер и его коллеги, указав на необходимость «догонять СССР», наконец получили щедрое финансирование - сто тысяч долларов в год. Делу помогло еще и то, что старый фронтовой приятель Достера Аллен Даллес в 1956 году возглавил ЦРУ. Для обработки информации об СССР управлению не хватало русскоязычных аналитиков, и Достер уверил Даллеса, что его машины скоро придут на помощь. За 1956-1958 годы джорджтаунская группа получила от ЦРУ около миллиона трехсот тысяч долларов (10 миллионов по курсу 2016 года). Ни один научный коллектив того времени, кроме физиков-ядерщиков, и мечтать не мог о таких суммах. В коды на перфокартах перевели почти восемь тысяч терминов органической химии. Достер также подписал контракт на перевод советских документов по атомной энергетике.

Достер и Уотсон (справа) во время Джорджтаунского эксперимента

Однако к середине 1960-х над проектом сгустились тучи. Философ Иегошуа Бар-Хиллел, первый в стране специалист по машинному переводу, пришел к выводу о его невозможности даже в будущем. Компьютер, согласно известному примеру Бар-Хиллела, не понимает различия между фразами The box in the pen (коробка в манеже) и The pen is in the box (ручка в коробке) - только человек интуитивно понимает, когда pen значит «манеж», а когда - «ручка».

В 1963 году Достеру удалось отбиться от нападок конгрессменов, которые провели специальные слушания по вопросу автоматического перевода. Но в 1964-м Комитет по прикладной лингвистике Национальной академии наук США констатировал «отсутствие прогресса» - никакого машинного перевода реальных, не адаптированных статей с русского на английский не было и в помине. ЦРУ также прекратило финансирование (без объяснения причин).

Машины - в отставку

Фактически именно сногсшибательный успех Джорджтаунского эксперимента вырыл проекту могилу. Первые фразы были слишком хороши, а переводы более сложных текстов оказались неточными, корявыми или вообще непонятными без дополнительного редактирования.

По словам Гордина, фатальной ошибкой Достера было невнимание к потребителям машинных переводов. Он ориентировался исключительно на госструктуры, которые в любой момент могли прекратить финансирование (что они и сделали).

Впрочем, проблему «тайн советской науки» в США все-таки решили, причем достаточно экономичным способом. Частные издатели создали серию журналов (например, Journal of general chemistry of the USSR), где статьи из советских журналов переводились сплошняком. Сначала эти издания нашли благодарную аудиторию среди американцев, не желающих учить русский, но уже через пару лет львиная доля тиража уходила иностранным специалистам. Ученые из Франции, Японии, Индии или Бразилии, желающие знать, что исследуется и изобретается в СССР, не учили русский, а покупали американские реферативные журналы. Так революционный прогресс советской науки и техники помог утверждению английского как монопольного международного языка ученых.

Публикация отчета в большей степени повлияла на исследования машинного перевода в США и в гораздо меньшей в СССР и Великобритании. По крайней мере, в США такого рода исследования были остановлены на целое десятилетие. В Канаде, Франции и Германии исследования все-таки продолжались. В США главными исключениями стали основатели компаний Systran (Питер Тома)

Если в 60е годы упор был на определенные языковые пары и ввод, то требованием в 70е годы стали малые затраты на системы, способные переводить ряд текстов технической и коммерческой направленности. Спрос был спровоцирован ростом глобализации и спрос на перевод в Канаде, Европе и Японии.

80-е начало 90-х годов

К 80-м годам разнообразие и число программ для машинного перевода увеличилось. Использовались такие переводческие системы, основывающиеся на технологии универсальной вычислительной машины, как Metal.

В результате увеличения пригодности микрокомпьютеров, появился рынок бюджетных программ машинного перевода. Многие компании Европы, Японии и США воспользовались данной возможностью. Системы были представлены на рынке Китая, Восточной Европы, Кореи и СССР.

В 80-е годы в Японии был большой ажиотаж, связанный с машинным переводом. С появлением компьютеров пятого поколения Япония планировала прыгнуть выше всех в области техники и программирования, проект, связанный с созданием программ для перевода с/на английский, заинтересовал многие компании (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).

Исследования 80-х годов основывались на переводе лингвистических единиц при помощи морфологического, синтаксического и семантического анализа.

Первые коммерческие продукты машинного перевода, нашедшие практическое использование в России, появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты.

Современные коммерческие продукты машинного перевода предлагают отечественные фирмы:

- "Виста Текнолоджиз" и "Адвентис", образованные в 1991 г. коллективом разработчиков, выделившихся из ВИНИТИ;
- ПРОМТ, образованная в 1991 г.;
- "Медиа Лингва".

Например в словарях Retrans Vista хранятся миллионы понятий, к которым относятся не только традиционные устойчивые фразеологические обороты, но, прежде всего, словосочетания, используемые в повседневной речи. Кроме того, есть программа концептуального анализа, автоматически выделяющая из текста новые словосочетания и включающая их в словарь. Основные словари системы Retrans Vista содержат термины и фразеологические единицы по естественным и техническим наукам, экономике, бизнесу и политике. Объем политематического машинного словаря - около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. - в англо-русской), причем 20% из них являются словами, а 80% - устойчивыми словосочетаниями со средней "длиной" в 2,2 слова.

В конце 80-х годов произошел рост числа методов, используемых при машинном переводе. Система, разработанная компанией IBM, базировалась на статистическом методе. Другие группы использовали методы, основывающиеся на большом числе примеров переводов, такая техника называется машинный перевод на основе примеров. Определяющая черта обоих подходов стал недостаток семантических и синтаксических правил и опора на манипуляции с корпусами текстов.

В 90-х годах после успеха программ по распознаванию речи и ее синтеза и с развитием Verbmobil, начались разработки по переводу речи.

В результате появления бюджетных и более мощных компьютеров вырос спрос на программы машинного перевода. Именно в начале 90х годов перевод стал осуществляться не громоздкими ЭВМ, а персональными компьютерами и дисплейными терминалами. Одна из компаний, которая стояла во главе рынка ПК на тот момент были Systran.

Недавние исследования

За последние несколько лет машинный перевод пережил значительные изменения. В настоящий момент большое количество исследований ведется в области статистического машинного перевода и машинного перевода на базе примеров перевода. Сегодня немногие компании используют статистический машинный перевод в коммерческих целях, например, Microsoft (использует свою собственную патентованную статистическую программу МП для перевода статей базы). Возобновился интерес к гибридизации, исследователи совмещают синтаксические и морфологические (т. е. лингвистические) знания в статистических системах с уже существующими правилами.

источники

Для начала, следует обозначить некоторые важные даты в истории машинного перевода:

1947 - дата рождения машинного перевода, как научного направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Винеру, в котором рассматривал задачу перевода текстов с одних языков на другие, как еще одну область применения техники дешифрования. За этим письмом последовало множество дискуссий. 1947 - А.Бут и Д.Бриттен разработали подробный "код" для пословного машинного перевода. 1948 - Р.Риченс предложил правила разбиения словоформ на основу и окончание. 1952 - первая конференция по машинному переводу в Массачусетском технологическом институте. 1954 - представлена первая система машинного перевода - IBM Mark II - русско-английская, имела словарь в 250 единиц и 6 грамматических правил. Последовавшее за этим десятилетие было временем бурного развития машинного перевода. 1967 - специально созданная в США Комиссия Национальной Академии наук, исходя из реальной ситуации с переводами в США и показателей стоимости различных способов перевода, пришла к выводу, что машинный перевод нерентабелен. Доклад существенно затормозил развитие МП в целом. 70-е годы - новый подъем работ в области МП. С развитием вычислительной техники появились новые возможности машинной реализации лингвистических алгоритмов. 80-е годы - время работы персональных компьютеров значительно подешевело, машинный перевод наконец-то стал экономически выгодным. 90-е годы - отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet. Возможности перевода в режиме он-лайн позволяют преодолеть языковой барьер и осуществлять навигацию по иностранным сайтам.

А сейчас следует рассмотреть эти факты подробнее:

Итак, впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж (1791-1871), разработавший в 1836-1848 гг. проект цифровой аналитической машины - механического прототипа электронных цифровых вычислительных машин, появившихся через 100 лет. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить (см. Апокин и др. Чарльз Бэббидж. М., Наука, 1981).

Мысль использовать ЭВМ для перевода была высказана в 1946 году, сразу после появления первых ЭВМ. Датой рождения МП как области исследований принято считать 1947 г.: все началось с письма Уоррена Уивера, директора отделения естественных наук Рокфеллеровского фонда, к Норберту Винеру в марте того же года, в котором задача перевода сравнивалась с задачей дешифровки текстов. Последняя в то время уже стала выполняться на электромеханических устройствах. За этим письмом последовало множество дискуссий, появился меморандум о целях, и, наконец, были выделены средства на исследования. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году.Несмотря на примитивность той системы (словарь в 150 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.

Первое поколение систем машинного перевода базировалось на алгоритмах последовательного перевода «слово за словом», «фраза за фразой». Возможности таких систем определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Перевод текста осуществлялся отдельными предложениями, смысловые связи между ними никак не учитывались. Такие системы называют системами прямого перевода. На смену им со временем пришли системы последующих поколений, в которых перевод от языка к языку осуществлялся на уровне синтаксических структур. В алгоритмах перевода использовался набор операций, позволяющий путем анализа переводимого предложения построить его синтаксическую структуру по правилам грамматики языка входного предложения (так же, как учат детей языку в средней школе), а затем преобразовать ее в синтаксическую структуру выходного предложения и синтезировать выходное предложение, подставляя нужные слова из словаря. Такие системы называются Т-системами (от английского слова transfer - преобразование).

Наиболее совершенным считается подход к построению систем машинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И - от слова "интерлингва"). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.

Однако, слишком много трудностей и неясностей было в том, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.

Выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.

Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности, ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.

А к середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

  • · MARK (в Департаменте иностранной техники ВВС США);
  • · GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведенных текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом ее выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъему этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

Впрочем, мечты, с которыми род людской взялся полвека назад за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз. В 1990 г. Ларри Чаилдс, специалист по машинному переводу, предложил следующую классификацию систем машинного перевода:

  • · FAMT (Fully-automated machine translation) - полностью автоматизированный машинный перевод;
  • · HAMT (Human-assisted machine translation) - машинный перевод при участии человека;
  • · MAHT (Machine-assisted human translation) - перевод, осуществляемый человеком с использованием компьютера.

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством профессора Пиотровского (Российский государственный педагогический университет им. Герцена, Санкт-Петербург).

В настоящее время различают три вида систем машинного перевода:

Системы на основе грамматических правил (Rule-Based Machine Translation, RBMT);

Статистические системы (Statistical Machine Translation, SMT);

Гибридные системы;

Системы на основе грамматических правил производят анализ текста, который используется в процессе перевода. Перевод производится на основе встроенных словарей для данной языковой пары, а так же грамматик, охватывающих семантические, морфологические, синтаксические закономерности обоих языков. На основе всех этих данных исходный текст последовательно, предложение за предложением, преобразуется в текст на требуемом языке. Основной принцип работы таких систем - связь структур исходного и конечного текстов.

Системы на основе грамматических правил часто разделяют еще на три подгруппы - системы пословного перевода, трансфертные системы и интерлингвистические системы.

Преимуществами систем на основе грамматических правил являются грамматическая и синтаксическая точность, стабильность результата, возможность настройки на специфическую предметную область. К недостаткам систем на основе грамматических правил относят необходимость создания, поддержки и обновления лингвистических баз данных, трудоемкость создания такой системы, а так же ее высокая стоимость.

Статистические системы при своей работе используют статистический анализ. В систему загружается двуязычный корпус текстов (содержащий большое количество текста на исходном языке и его «ручной» перевод на требуемый язык), после чего система анализирует статистику межъязыковых соответствий, синтаксических конструкций и т. д. Система является самообучаемой - при выборе варианта перевода она опирается на полученную ранее статистику. Чем больший словарь внутри языковой пары и чем точнее он составлен, тем лучше результат статистического машинного перевода. С каждым новым переведенным текстом улучшается качество последующих переводов.

Статистические системы отличаются быстротой настройки и легкостью добавления новых направлений перевода. Среди недостатков наиболее значительными являются наличие многочисленных грамматических ошибок и нестабильность перевода.

Гибридные системы сочетают в себе подходы, описанные ранее. Ожидается, что гибридные системы машинного перевода позволят объединить все преимущества, которыми обладают статистические системы и системы, основанные на правилах.

1.3 Классификация систем машинного перевода

Системы машинного перевода - программы, осуществляющие полностью автоматизированный перевод. Главным критерием программы является качество перевода. Кроме этого, для пользователя важными моментами является удобство интерфейса, лёгкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита пополнения словаря. С появлением Internet основные поставщики систем машинного перевода включили в свои продукты Web-интерфейсы, обеспечив при этом их интеграцию с остальным программным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода Web-страниц, электронной корреспонденции и онлайновых разговорных сеансов.

Новые члены форума по иностранным языкам компании CompuServe зачастую задают вопрос о том, не мог ли бы кто-нибудь посоветовать им хорошую программу машинного перевода за умеренную цену.

Ответом на этот вопрос неизменно является "нет". В зависимости от отвечающего, ответ может содержать два основных аргумента: либо о том, что машинам перевод не под силу, либо, что машинный перевод стоит слишком дорого.

Оба эти аргумента в определенной степени справедливы. Однако ответ далеко не так прост. Изучая проблему машинного перевода (МП), следует рассмотреть отдельно различные подразделы этой проблемы. Следующее разделение основано на лекциях Лари Чайлдса, проведенных в рамках Международной Конференции по Техническим Коммуникациям 1990 года:

Полностью автоматический перевод;

Автоматизированный машинный перевод при участии человека;

Перевод, осуществляемый человеком с использованием компьютера.

Полностью автоматизированный машинный перевод. Этот вид машинного перевода и подразумевается большинством людей, когда они говорят о машинном переводе. Смысл здесь прост: в компьютер вводится текст на одном языке, этот текст обрабатывается и компьютер выводит этот же текст на другом языке. К сожалению, реализация такого вида автоматического перевода сталкивается с определенными препятствиями, которые еще предстоит преодолеть.

Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", "отхожее место", "тюрьма". Кроме этого, существует архаичное значение этого слова - "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Тем не менее, полностью автоматизированный машинный перевод текстов с обширной тематикой все еще является невыполнимой задачей.

Автоматизированный машинный перевод при участии человека. Этот вид машинного перевода теперь вполне осуществим. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций.

Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики.

Экономичность использования машинного перевода с помощью человека - вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться, да и работа эта не из приятных. Создание и поддержание в рабочем состоянии баз данных слов - процесс трудоемкий и зачастую требует специальных навыков. Однако для организации, переводящей большие объемы текстов в четко-определенной тематической сфере, машинный перевод с помощью человека может оказаться достаточно экономичной альтернативой традиционному человеческому переводу.

Перевод, осуществляемый человеком с использованием компьютера. При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод - точным. Это обычные электронные словари, которые обеспечивают перевод требуемого слова, возлагая на человека ответственность за выбор нужного варианта и смысл переведенного текста. Такие словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. И все же сам процесс перевода значительно ускоряется и облегчается.

Среди систем, помогающих переводчику в работе, важнейшее место занимают так называемые системы Translation Memory (TM).Системы ТМ представляют собой интерактивный инструмент для накопления в базе данных пар эквивалентных сегментов текста на языке оригинала и перевода с возможностью их последующего поиска и редактирования. Эти программные продукты не имеют целью применение высокоинтеллектуальных информационных технологий, а наоборот, основаны на использовании творческого потенциала переводчика. Переводчик в процессе работы сам формирует базу данных (или же получает ее от других переводчиков или от заказчика), и чем больше единиц она содержит, тем больше отдача от ее использования.

Вот список наиболее известных систем ТМ:

Transit швейцарской фирмы Star,

Trados (США),

Translation Manager от IBM,

Eurolang Optimizer французской фирмы LANT,

DejaVu от ATRIL (США),

WordFisher (Венгрия).

Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода.

В настоящее время ведутся разработки по усовершенствованию систем ТМ. Например, ядро системы Transit фирмы Star реализовано на основе технологии нейронных сетей.

Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:

Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода.

Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика.

Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем.

Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически.

Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения.

Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM,основным недостатком является их дороговизна.

Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

Содержание:
Введение ……………………………………………………….………………. 3
1.1 Что такое машинный перевод?...................... .............................. ................ 5
1.2 Начало машинного перевода ……..………….……...….………………… 8
1.3 Этапы развития машинного перевода …………………….………….…. 12
1.4 Современный машинный перевод ……………..……………………….. 15
1.5 Машинный перевод в Интернете …….………………… ……………….. 18
Заключение ……………………………………………………………………. 21
Литература …….……………………...………………………………………. . 22

Введение.
Механизация перевода – это старейшая мечта человечества. Но в XX веке такая мечта стала реальностью. Во многом это связано с постоянным стремлением общества к глобализации и даже с этническими конфликтами и политическими катаклизмами, с упрочнением социально-экономических связей между государствами, интеграции многих ранее «закрытых» стран в мировое сообщество. Знание иностранных языков - это не только полезный навык в повседневной жизни, но также одно из основных требований при приеме на работу. В настоящее время необходимость в знании одного или даже нескольких иностранных языков приобретает всё более явную актуальность. Знание языка (английского или немецкого) необходимо не только в поездке в отпуск за границу, но также и на приеме деловых партнёров из-за рубежа, в обыденной жизни при чтении новостей или просмотре фильмов. Поэтому, большое количество рутинных обыденных и повседневных операций, которые не требовали ранее знания иностранного языка, сегодня, ввиду развития процессов международной интеграции и повсеместному стремлению бизнеса к глобализации, становятся всё более затруднительными, если опираться только на один язык. В связи с этим, на сегодняшний день, всё более востребованными становятся услуги переводчиков, выполняющих на профессиональном уровне переводы на английский, немецкий и другие языки и языковые пары. Однако сегодня одного только знания иностранных языков бывает недостаточно, поскольку объём информации, которую необходимо ежедневно переводить, существенно возрос. Вместе с тем, эта задача успешно решается, и ни для кого не составляет труда всего за несколько секунд перевести контракт или контент иностранного сайта. А всё потому, что переводом в этом случае занимается программа-переводчик: человек не успевает и глазом моргнуть, а перевод уже готов.
Но и сегодня, как и прежде, реальность не совершенна. Нет ни одной системы машинного перевода, которая при нажатии всего нескольких кнопок могла бы сделать безупречный перевод любого текста на любом языке без вмешательства или хотя бы редакции человека. Пока это только планы на далекое будущее, если подобного идеала вообще можно достичь, так как многие подвергают данное предположение сомнению.

1.1 Что такое машинный перевод?

Машинный перевод - это процесс перевода, выполняемый специальной компьютерной программой, который позволяет преобразовать текст на одном естественном языке в эквивалентный по содержанию текст на другом языке. Так же называется направление научных исследований, связанных с построением подобных систем.
Современный машинный, или автоматический перевод можно рассмотреть во взаимодействии компьютерной программы с человеком:

      С постредактированием, когда исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
      С предредактированием, когда человек приспосабливает текст к обработке машиной, например, устраняет возможные неоднозначные прочтения, упрощает и размечает текст, после чего начинается программная обработка.
      С интерредактированием, при котором человек вмешивается в работу системы перевода, разрешая трудные случаи.
      Смешанные системы, включающие, например, одновременно пред- и постредактирование.
Основной целью машинного перевода, как науки является разработка алгоритма, который полностью автоматизирует процесс перевода.
Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L 1 – L 2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными.
Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода:
1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы.
2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области. Включает определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста, производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие или отсутствие контекстных определителей значения.
3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани , ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).
4. Синтез выходных словоформ и предложения в целом на выходном языке.
В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей.
Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с человеком (переводчиком или редактором), в содержание термина «машинный перевод» входит представление о том, что главную, бoльшую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя, оставляя человеку лишь контроль и исправление ошибок. В то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий; при этом, однако, в словарях такого рода в ограниченной степени могут быть реализованы и некоторые функции, присущие системам машинного перевода.

1.2 Начало машинного перевода.

Технология машинного перевода, как научное направление, имеет уже почти вековую историю, а первые идеи автоматизации переводческого процесса появились еще в XVII столетии.
Как принято считать, причинами возникновения машинного перевода явился бурно растущий со 2-ой половины XX века поток информации на разных языках различных стран и континентов, необходимость ее усвоения для научно-технического прогресса, недостаточность квалифицированных (особенно в отдельных областях) переводчиков, а также высокая стоимость их подготовки.
О разработке новых способов перевода впервые задумался английский изобретатель Чарльз Бэббидж, предложивший в конце 1830-х гг. проект первого в истории компьютера. Суть работы прибора состояла в использовании потенциала машинной памяти для хранения словарей. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Однако воплотить в жизнь свою идею Бэббиджу так и не удалось.
Теоретической основой начального периода работ по машинному переводу был взгляд на язык как кодовую систему. Пионерами машинного перевода были математики и инженеры. Описания их первых опытов, связанных с использованием только что появившихся ЭВМ для решения криптографических задач, были опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как исследовательской области обычно считают март 1947 года. Именно тогда, директор отделения естественных наук Рокфеллеровского фонда Уоррен Уивер разработал меморандум, в котором определил задачу текстового перевода с одних языков на другие как еще одну область применения техники дешифрования. В своем письме Норберту Винеру Уоррен Уивер впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки.
Вслед за этим последовало бурное обсуждение идеи автоматизированного перевода и теоретическая разработка первых технологий. Высказывались предположения о полной замене человека-переводчика электронными системами, многие профессиональные переводчики опасались в ближайшем будущем остаться без работы. Идеи Уивера легли в основу подхода к машинному переводу, основанного на концепции interlingva: стадия передачи информации разделена на два этапа; на первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка.
Тот же Уоррен Уивер после ряда дискуссий составил в 1949 меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода. Системы машинного перевода в те годы довольно сильно отличались от современных систем. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений, а также математических и физических факультетов университетов (последние также были тесно связаны с военной сферой). Поэтому на ранних этапах разработка машинного перевода активно поддерживалась военными; при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому.
Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 английским математиком А.Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественно-языковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками, с одной стороны, и лингвистами – с другой установилось продуктивное сотрудничество.
Вскоре, началось финансирование исследований, и в 1952 году состоялась первая конференция в Массачусетском технологическом институте по машинному переводу, организованная логиком и математиком Й.Бар-Хиллелом.
В 1954 общественности были предъявлены первые результаты: фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первый эксперимент. Он вошёл в историю как так называемый Джорджтаунский эксперимент, на котором была представлена первая версия электронного переводчика. В ходе эксперимента был продемонстрирован полностью автоматический перевод более 60 предложений с русского языка на английский . Презентация положительно повлияла на развитие машинного перевода в последующие 12 лет.
Эксперимент был задуман и подготовлен с целью привлечения общественн ого и правительственного внимания. Парадоксально, но в его основе лежала довольно простая система : она была основана всего на 6 грамматических правилах , а словарь включал 250 записей. Система была специализированной: в качестве предметной области для перевода была выбрана органическая химия . Программа выполнялась на мэйнфрейме IBM 701 .
В том же 1954 первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны. Особого упоминания заслуживают работа в этой области отечественных лингвистов, таких, как И.А.Мельчук и Ю.Д.Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе НИИ математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.
Демонстрация Джорджтаунского эксперимента была широко освещена в СМИ и воспринята как успех. Она повлияла на решение правительств некоторых государств , в первую очередь США , направить инвестиции в область вычислительной лингвистики . Организаторы эксперимента уверяли, что в течение трёх-пяти лет проблема машинного перевода будет решена. Идея машинного перевода стимулировала развитие исследований в теоретическом и прикладном языкознании во всем мире. Появились теории формальных грамматик, большое внимание стало уделяться моделированию языка и отдельных его аспектов, языковой и мыслительной деятельности, вопросам языковой формы и количественных распределений лингвистических явлений. Возникли новые направления лингвистической науки – вычислительная, математическая, инженерная, статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и теоретического языкознания. В течение 1950-х годов в учебных центрах многих стран мира были открыты отделения прикладной лингвистики и машинного перевода. Так, в СССР такие отделения были созданы в Москве (МГУ им. М.В.Ломоносова, МГПИИЯ им. М.Тореза – ныне МГЛУ), в Минском МГПИИЯ, в Ереване, Махачкале, Ленинградском университете, в университетах Киева, Харькова, Новосибирска, ряда других городов. Исследования и разработки по машинному переводу развернулись также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах, Болгарии, Венгрии и других странах, а также в международных организациях, где велик объем переводов с различных языков. В настоящее время исследования ведутся и в таких странах, как Малайзия, Саудовская Аравия, Иран и др.

1.3 Этапы развития машинного перевода.

В результате такого успешного старта развития машинного перевода, казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет. При этом акцент делался на развитие полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс. Профессиональные переводчики всерьез опасались в скором времени остаться без работы...
Однако исследования по машинному переводу за свою историю переживали как подъемы, так и спады. В 1950-х годах в исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества машинного перевода в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем. В результате этого первые системы машинного перевода сводились к пословному (слово за словом) переводу текстов без какой-либо синтаксической, а тем более смысловой целостности.
В 1959 году философ Й. Бар-Хиллел выступил с утверждением, что высококачественный полностью автоматический перевод не может быть достигнут в принципе. Он исходил из того, что выбор того или иного перевода обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею машинного перевода, как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз"). Но это выступление самым неблагоприятным образом отразилось на развитии машинного перевода в США. В начале 1960-х годов завершился первоначальный эйфорический этап в развитии МП. Этому в сильнейшей степени способствовала публикация так называемой «Черной книги машинного перевода» – доклада Специального комитета по прикладной лингвистике (ALPAC) Национальной академии наук США, в котором была констатирована невозможность создания в обозримом будущем универсальных систем высококачественного машинного перевода. Комиссия пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. Следствием этой публикации было сокращение финансирования и общее снижение интереса к проблематике машинного перевода, однако полного сворачивания исследований, в особенности теоретических, не произошло. И первые системы перевода продолжали пользоваться популярностью в военных и научных учреждениях СССР и США.
Новый этап развития технологий машинного перевода начался в 1970-х годах. Этот подъём был связан с появлением вычислительной техники - появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти. Программисты отказались от идеи создания “идеальной” машины-переводчика: новые системы разрабатывались с целью многократного увеличения скорости перевода информации, но с обязательным участием человека на различных стадиях процесса перевода для достижения наилучшего качества работы.
О возрождении машинного перевода в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и NASA); кроме того, CEC заказывает разработку французско-английской и итальянско-английской версий. В то время благодаря CEC были заложены основы проекта EUROTRA, основанного на разработках групп SUSY и GETA. Одновременно происходит быстрое расширение деятельности по созданию систем машинного перевода в Японии; в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испанско-английского направления (система SPANAM); ВВС США финансируют разработку системы МП в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (которая использовалась в основном для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг., впоследствии развились в полноценные коммерческие системы. В нашей стране разработку основ технологии машинного перевода продолжила группа специалистов в ВИНИТИ под руководством профессора Г. Г. Белоногова. В результате в 1993 г. была создана промышленная версия системы RETRANS фразеологического машинного перевода с русского языка на английский и обратно, которая применялась в министерствах обороны, путей сообщения, науки и технологий, а также во ВНТИЦ.
Очередной этап исследований в области машинного перевода – это 90-е года прошлого века. Связано это, конечно же, с колоссальным прогрессом современных персональных компьютеров, появлением качественных и доступных массовому пользователю сканеров и эффективных программ оптического распознавания текста и, конечно же, с появлением глобальной компьютерной сети Интернет. Всё это придало новый стимул работам по машинному переводу, привлекло в данную область новые значительные инвестиции и увенчалось серьезными практическими результатами. А именно, появились достаточно эффективные системы машинного перевода и компьютерные словари для работы на персональном компьютере; произошло объединение систем машинного перевода с системами оптического распознавания текста и проверки орфографии. Были созданы специальные средства машинного перевода для работы в Интернет, обеспечивающие либо перевод текстов на серверах соответствующих компаний, либо онлайновый перевод Web-страниц, позволяющий преодолевать языковой барьер и осуществлять навигацию по иностранным сайтам.

1.4 Современный машинный перевод.

Сегодняшние программы-переводчики имеют гораздо более широкий «кругозор» и действуют на основе более совершенных переводческих технологий. Системы перевода активно используются во всем мире в случаях, когда требуется быстро понять смысл текста или часто переводить большие объемы информации. Некоторым разработчикам на сегодняшний день удалось достичь весьма приемлемого качества перевода по отдельным языковым направлениям.
Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. В содержание термина «машинный перевод» входит представление о том, что главную, большую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя. Человеку предоставляется лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий.
В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик, если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования. Такого рода системы машинного перевода используются в организациях, потребности которых в оперативных и качественных переводах достаточно велики.
В рамках технологии машинного перевода существует два подхода: традиционный (основанный на правилах) и статистический (основанный на статистической обработке словарных баз). Традиционный метод МП используется большинством разработчиков систем перевода. Работа такой программы включает в себя несколько этапов и, по сути, заключается в использовании лингвистических правил (алгоритмов). Соответственно, создание такого электронного переводчика включает в себя разработку правил и пополнение словарных баз системы. От разработки необходимых алгоритмов зависит качество перевода на выходе. Богатый словарь системы также позволяет справиться с переводом самых разнообразных по тематике текстов. Статистический метод действует совсем по иному принципу. В его основе лежат математические методы для получения перевода. Точнее, весь принцип работы подобной системы основан на статистическом вычислении вероятности совпадений фраз из исходного текста с фразами, которые хранятся в базе системы перевода.
В России с помощью традиционного способа машинного перевода разрабатываются программные продукты компании ПРОМТ - единственного в нашей стране производителя программ-переводчиков. В настоящее время компания ПРОМТ – ведущий разработчик систем автоматизированного перевода и обладает колоссальным технологическим багажом, что позволяет разрабатывать системы перевода с различными функциональными возможностями. Уникальные технологии построения систем перевода и оригинальные алгоритмы работы с текстами на естественных языках стали тем базисом, на котором были созданы все программные продукты компании, и который обеспечил возможность разработки широкого спектра решений для автоматизированного перевода с одного языка на другой. Программные продукты компании ПРОМТ одинаково полезны как для решения бизнес-задач, так и для домашнего использования. В последнее время особое внимание компания ПРОМТ уделяет созданию специальных средств и технологий для профессиональных переводчиков. В настоящее время системы ПРОМТ выполняют перевод для 24 языковых направлений . Генеральный словарь для одной языковой пары содержит от 40 до 200 тысяч словарных статей, которые в свою очередь содержат структурированное описание различной лингвистической информации, необходимой системе для работы сложнейших алгоритмов анализа и синтеза текста. Словари по тематикам содержат специфические слова и выражения, характерные для предметной области, их объем может меняться от 5 до 50 тысяч словарных статей. Например, для англо-русской и русско-английской систем разработаны специализированные словари, охватывающие более 50 различных тематик.

1.5 Машинный перевод в Интернете.

Онлайновый перевод информации в Интернете становится все более популярным. Интернет стремительно превращается из преимущественно англоязычной в многоязычную среду, что вынуждает владельцев Web-сайтов предоставлять информацию на нескольких языках. Наиболее часто к услугам МП прибегают информационные и поисковые сайты, которые стремятся привлечь на свои страницы разноязычных пользователей. Так, на канадском информационно-поисковом портале InfiniT (http://www.infiniT.com) открылся новый сервис переводов. На сайте теперь доступен онлайновый перевод текста с английского и немецкого языков на французский язык и обратно. Увеличение числа посетителей портала обусловлено возможностью онлайнового перевода Web-страниц. Для этого пользователю достаточно указать только адрес Web-страницы, выбрать направление перевода и нажать кнопку перевода. В результате через несколько секунд пользователь получает полностью переведенную Web-страницу с сохранением форматирования.
Новый сервис позволяет ликвидировать языковую проблему в канадском Интернете, где в силу исторических особенностей широко используются два языка: английский и французский. Кроме того, онлайновый переводчик открывает доступ к сайтам на немецком языке тем жителям Канады, которые не владеют иностранными языками. Сервис работает на базе серверного Интернет-решения компании ПРОМТ под названием PROMT Internet Translation Server version 2.0. Проект был реализован совместно с компанией Softissimo, которая занимается продвижением продуктов компании ПРОМТ под торговой маркой REVERSO. Интересной особенностью Web-сайтов, знакомящих с программами МП, электронными словарями и другими программами лингвистической поддержки, является то, что с работой многих программных продуктов можно познакомиться в интерактивном режиме, используя версию, установленную на сервере и имеющую шлюз для удаленного общения через Web-интерфейс. На сервере Web-издательства "ИнфоАрт" (http://www.
infoart.ru/misc/dict) организована интерактивная демонстрация словарей Lingvo и "МультиЛекс". Вы можете ввести слово или словосочетание и мгновенно получить перевод, толкование, примеры употребления и устойчивые словосочетания.
Наиболее универсальным является PROMT Internet. Купив этот пакет, вы получите сразу несколько программ для перевода Web-страниц, и не только их. Можно с уверенностью сказать, что возможностей данного набора приложений вполне достаточно для полноценной работы с документами на английском, французском и немецком языке. Если вы предполагаете использовать универсальную переводящую программу WebTranSite 98 или броузер WebView больше, чем другие части пакета PROMT Internet, и при этом желаете сэкономить немного денег, то можете приобрести эти продукты по отдельности. В таком случае WebTranSite 98 придется по вкусу тем, кто часто переводит небольшие фрагменты текста не только из Интернет, но и из офисных, почтовых и других программ, а также из системы интерактивной справки.
WebTranSite 98 подходит не только для перевода Web-страниц. Она достаточно универсальна и позволяет обрабатывать фрагменты
и т.д.................