Использование управляемого языка в машинном переводе создает ряд проблем.
В автоматизированном переводе первым шагом к пониманию контролируемого языка является знание того, что это такое, и различие между естественным языком и контролируемым языком.
Основная проблема машинного перевода - лингвистическая. Язык неоднозначен, и система пытается моделировать язык лексически и грамматически. Для решения этой проблемы существует множество альтернатив: например, может быть использован глоссарий, связанный с тематикой текста.
Каждый язык имеет свои грамматические правила. По этой причине в каждом языке правила для контролируемых языков различны. Не существует таких правил, которые давали бы подходящие для всех языков результаты. Однако существуют правила, которые снижают уровень двусмысленности в большинстве текстов на многих языках. Согласно статье Уве Мюгге "Контролируемый язык, оптимизированный для унификации перевода" (2002), следует применять следующие десять правил:[1]
1. Пишите предложения, которые короче 25 слов.
2. Пишите предложения, которые выражают только одну идею.
3. Напишите одно и то же предложение, если хотите выразить одно и то же содержание.
4. Пишите предложения, которые грамматически завершены.
5. Пишите предложения, имеющие простую грамматическую структуру.
6. Пишите предложения в активной форме.
7. Напишите предложения, которые повторяют существительное вместо местоимения.
8. Напишите предложения, в которых артикли используются для идентификации существительных.
9. Пишите предложения, в которых используются слова из общего словаря.
10. Пишите предложения, в которых используются только слова с правильным написанием.
Это позволяет создавать тексты, которые легче читать, понятнее и легче запоминать, а также с лучшим словарным запасом и стилем. Причины введения контролируемого языка включают в себя:
Одной из самых больших проблем, стоящих перед организациями, которые хотят сократить затраты и время на перевод, является тот факт, что даже в средах, сочетающих системы управления контентом с технологией памяти переводов, процент непереведенных сегментов на новый документ остается довольно высоким. Хотя, безусловно, можно управлять контентом на уровне предложения/сегмента, в настоящее время лучшей практикой, по-видимому, является фрагментация на уровне темы. Это означает, что повторное использование происходит на довольно высоком уровне детализации.