Нейронний машинний переклад (NMT) — різновид машинного перекладу, який передбачає використання штучної нейронної мережі для прогнозування ймовірності послідовності слів, зазвичай шляхом оперування одразу цілими реченнями в одній інтегрованій моделі.
Властивості
NMT-моделі використовують глибоке навчання та навчання ознакам. Для їх роботи потрібна лише частка пам'яті, необхідної для використання традиційних моделей статистичного машинного перекладу (SMT). Крім того, на відміну від звичайних систем перекладу, усі частини моделі нейронного перекладу навчаються разом від початку до кінця (end-to-end), що дає змогу максимізувати продуктивність перекладу[1][2][3].
Історія
Уперше програми глибокого навчання почали застосовувати в 1990-х роках у задачах із розпізнавання мовлення.
Перша наукова стаття про використання нейронних мереж у машинному перекладі з'явилася у 2014 році, а впродовж кількох наступних із її допомогою вдалося вирішити чимало інших задач. Станом на 2017 рік це такі системи:
NMT-системи з великим словником (Large-Vocabulary NMT)
NMT-системи з урахуванням частин слів (Subword-NMT)
Багатомовні NMT-системи (Multilingual NMT)
NMT-системи з багатьма джерелами (Multi-Source NMT)
NMT-системи без джерел (Zero-Resource NMT)
NMT-системи на рівні символів (Character-dec NMT)
Повносимвольні NMT-системи (Fully Character-NMT)
NMT-системи без підготовки (Zero-Shot NMT)
Google
Додаток для захоплення зображень.
У 2015 році NMT-система вперше з'явилася на відкритому конкурсі машинного перекладу (OpenMT '15[4]). На WMT '15 теж уперше взяв участь NMT-претендент[5]; наступного року серед переможців було вже 90 % NMT-систем[6].
З 2017 року Європейське патентне відомство використовує нейронний машинний переклад для миттєвого надання доступу до інформації, вміщеної у глобальній патентній системі[7]}}. Система, розроблена у співпраці з Google, працює 31 мовою. Станом на 2018 рік система переклала понад 9 млн документів[7]}}.
Напрацювання
NMT-система є розвитком статистичного підходу на рівні фраз, який працює на основі незалежних підкомпонентів[8]. Нейронний машинний переклад (NMT) не є кардинальною відмовою від статистичного машинного перекладу (SMT). Його основним вихідним пунктом є використання векторного подання слів і внутрішніх станів — «вбудовування» (embeddings), «подання в неперервному просторі» (continuous space representations).
Структура NMT-моделей простіша порівняно зі структурою моделей на основі фраз: у ній немає окремої мовної моделі, моделі перекладу та моделі перевпорядкування, а є лише одна модель послідовностей, яка передбачає одне слово за раз. Однак це передбачення послідовності слів спирається одразу на все вихідне речення та на всю вже створену цільову послідовність.
Перші спроби моделювання послідовності слів зазвичай проводилися за допомогою рекурентної нейронної мережі (RNN). Двонаправлена рекурентна нейронна мережа, так званий кодувальник (encoder), використовується для кодування вихідного речення для другої RNN, відомого як розкодувальник (decoder), а та, своєю чергою, використовується для передбачення слів цільовою мовою[9].
Перед рекурентними нейронними мережами постають труднощі під час кодування довгих вхідних даних в один вектор. Їх можна подолати за допомогою механізму уваги (attention mechanism)[10], який дає декодувальнику змогу зосереджуватися на різних частинах вхідних даних під час генерації кожного вихідного слова. Існують моделі покриття (coverage models) для вирішення проблем у таких механізмах уваги, які призводять до генерування надто довгого або надто короткого перекладу[11] (наприклад, ігнорування наявної інформації про вирівнювання).
Згорткові нейронні мережі (convnets) дещо краще обробляють довгі неперервні послідовності, але певний час їх не використовували через наявність кількох недоліків. У 2017 році ці недоліки вдалося успішно подолати за допомогою «механізмів уваги»[12].
Домінуючою архітектурою для кількох мовних пар залишається модель Transformer, яка базується на механізмі уваги[13]. На рівнях «самоуваги» цієї моделі досліджуються залежності між словами послідовності шляхом аналізу зв'язків між усіма словами в парних послідовностях і безпосереднього моделювання цих зв'язків. Цей підхід простіший, ніж механізм селекції, на якому працюють рекурентні нейронні мережі. А його простота дала дослідникам змогу розробляти високоякісні моделі перекладу за допомогою моделі Transformer, навіть в умовах, коли кількість вхідних даних невелика.
Приклади застосування
Нейронний переклад використовується у сервісах перекладу багатьох компаній — як-от Google, Microsoft, Яндекс, ПРОМТ.
У Яндекс.Перекладачі використовується гібридна модель: свій варіант перекладу пропонує і статистична модель, і нейромережа, після чого за допомогою технології CatBoost[15], яка працює на основі машинного навчання, вибирається кращий з отриманих результатів.
Пропонувати системи на основі нейронних мереж почали й інші постачальники машинного перекладу, зокрема Omniscien Technologies (раніше Asia Online)[16], KantanMT, SDL[17], Globalese[18], Systran[19] тощо. DeepL надає загальну систему перекладу із системами штучного інтелекту глибокого навчання.
↑Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). Sequence to sequence learning with neural networks. arXiv:1409.3215 [cs.CL].
↑Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio (3 September 2014). On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. arXiv:1409.1259 [cs.CL].
↑Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473 [cs.CL].
↑Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 вересня 2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473 [cs.CL].
↑Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang (2016). Modeling Coverage for Neural Machine Translation. arXiv:1601.04811 [cs.CL].
↑Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias; Koehn, Philipp (August 2019). Findings of the 2019 Conference on Machine Translation (WMT19). Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1). Florence, Italy: Association for Computational Linguistics: 1—61. doi:10.18653/v1/W19-5301.