Машинний переклад

Машинний переклад (МП) — технології автоматизованого перекладу текстів (письмових та усних) з однієї природної мови на іншу за допомогою комп'ютера; напрямок наукових досліджень, пов'язаний з побудовою систем автоматизованого перекладу.

На базовому рівні, робота комп'ютерних програм для перекладу полягає у заміні слів чи словосполучень з однієї мови на слова чи словосполучення з іншої. Однак тоді виникає проблема, що така заміна не може забезпечити якісний переклад тексту, адже потрібне визначення та розпізнання слів та цілих фраз з мови оригіналу. Це спонукає активну наукову діяльність у галузі комп'ютерної лінгвістики. Наразі, для вирішення неоднозначностей при перекладі, використовуються багатомовні онтологічні ресурси, такі як WordNet та UWN.

Машинний переклад — одна з підгруп комп’ютерної лінгвістики, яка досліджує використання програмного забезпечення для перекладу тексту з однієї мови на іншу. На початковому рівні МТ виконує звичайну заміну слів з однієї мови на слова з іншої мови, але, зазвичай, переклад здійснений таким чином не є дуже якісним, адже для того щоб, повністю передати сенс речення, та знайти найспорідненіший аналог в «цільовій» (target language) — потрібній перекладачу мові, часто потрібно здійснювати переклад цілої фрази.

Вирішення цієї проблеми з статистичними (statistical) та нейронними (neural) системами перекладу є швидко зростаючою галуззю, яка веде до покращення перекладу, усунення різниці в лінгвістичній типології, перекладу ідіом та виділенню аномалій.

Сучасне програмне забезпечення для машинного перекладу має функцію зміни налаштувань за доменом (domain) — галуззю або професійною діяльністю (напр. метеорологічні звіти). Обмежуючи сферу допустимих замін/заміщень ми маємо змогу отримати кращий результат перекладу.

Цей метод є особливо ефективним в сферах де використовується формальна чи шаблонна мова. Це означає, що машинний переклад, наприклад, урядових та юридичних документів є більш якісним, ніж переклад розмовних чи будь-яких менш стандартизованих текстів.

Підвищення якості кінцевого продукту може також бути досягнуто шляхом людського втручання: наприклад деякі системи зможуть надати більш точний переклад, якщо користувач заздалегідь позначить які слова в тексті є власними іменами. За допомогою цих методів, МТ проявив себе як знаряддя, що дійсно допомагає перекладачам, а іноді, у дуже рідкісних випадках і сам може слугувати високоякісним перекладачем, здійснюючи переклад, який не потребує корекції. З моменту виникнення машинного перекладу (кінець 50-х років XX ст.) і до сьогодення науковці сперечаються щодо його прогресу та потенціалу.

Починаючи з 1950-х років ряд дослідників поставили під сумнів той факт, що автоматично здійснений переклад може бути високої якості.

Деякі критики стверджують що існують перешкоди, що унеможливлюють повну комп’ютеризацію процесу перекладу.

Автоматизований переклад

Замість «машинний» іноді вживається слово автоматичний, що не впливає на сенс. Проте термін автоматизований переклад має зовсім інше значення  — в такому випадку програма просто допомагає людині перекладати тексти.

Автоматизований переклад передбачає такі форми взаємодії:

  • Частково автоматизований переклад: наприклад, використання перекладачем-людиною комп'ютерних словників.
  • Системи з поділом праці: комп'ютер навчений перекладати тільки фрази чітко заданої структури (але робить це так, що виправляти за ним не потрібно), а все, що не вклалося в схему, залишає людині.

В англомовній термінології також розрізняються терміни англ. machine translation, MT (повністю автоматичний переклад) і англ. machine-aided або англ. machine-assisted translation (MAT) (автоматизований); якщо ж треба позначити й те, й інше, пишуть — M(A)T.

Типи систем машинного перекладу

Існують два принципово різних підходи до побудови алгоритмів машинного перекладу: заснований на правилах (rule-based) і статистичний, або заснований на статистиці (statistical-based). Перший підхід є традиційним і використовується більшістю розробників систем машинного перекладу (ПРОМТ у Росії, SYSTRAN у Франції, Linguatec у Німеччині тощо).

МП на основі правил (Rule-based MT)

МП на основі правил (Rule-based MT — RBMT, «Класичний підхід» МП) — система машинного перекладу, сформована на базі лінгвістичної інформації з одномовних (unilingual), двомовних (bilingual) чи багатомовних (multilingual) словників та граматичних правил вихідної мови та цільової мови.

Система охоплює основні семантичні, морфологічні та синтаксичні закономірності кожної мови. Відповідно, для того щоб здійснити переклад, система повинна зробити попередній морфологічний, синтаксичний та семантичний аналіз тексту, і тільки після цього вона генерує речення. Найбільший мінус RB-перекладу полягає в тому, що для здійснення програмою коректного перекладу, її база даних повинна містити усі орфографічні варіації та помилкові форми введення слів, а для всіх випадків неоднозначності повинні бути написані правила лексичного відбору.

Сама по собі, адаптація до нових доменів є не таким вже і складним процесом, оскільки основи граматики для всіх доменів однакові, а налаштування сфер користувацької діяльності обмежується лише корекцією лексичного відбору.

Отож, така система машинного перекладу є першим, класичним методом його здійснення. Вона дозволяє отримати більш якісний результат, аніж статистичний метод, але синтезує переклад повільніше.

Статистичний переклад (Statistical MT)

Статистичний машинний переклад — це різновид машинного перекладу тексту, заснований на порівнянні великих обсягів мовних пар. Мовні пари — тексти, що містять речення однією мовою і відповідні речення іншою, можуть бути як варіантами написання двох речень людиною — носієм двох мов, так і набором речень та їх перекладів, виконаних людиною. Таким чином статистичний машинний переклад володіє властивістю «самонавчання». Чим більше в розпорядженні програми є мовних пар і чим точніше вони відповідають один одному, тим кращий результат статистичного машинного перекладу.

Під поняттям «статистичного машинного перекладу» мається на увазі загальний підхід до вирішення проблеми перекладу, який заснований на пошуку найімовірнішого перекладу речення з використанням даних, отриманих з двомовної сукупності текстів. Прикладом двомовної сукупності текстів можна назвати парламентські звіти, які являють собою протоколи дебатів у парламенті. Двомовні парламентські звіти видаються в Канаді, Гонконгу та інших країнах; офіційні документи Європейського економічного співтовариства видаються 11 мовами; а Організація Об'єднаних Націй публікує документи на декількох мовах. Як виявилося, ці матеріали є безцінними ресурсами для статистичного машинного перекладу.

Дана система базується на статистичному вирахуванні імовірності збігів. Задля виконання перекладу програма повинна мати доступ до сотень мільйонів документів, які заздалегідь були перекладені людьми. Такі документи слугують для системи шаблонами, на основі яких вона і здійснює переклад. Чим більше документів, тим вища ймовірність більш якісного перекладу.

На початку свого існування, з 2006 року, Google Translate базувався саме на статистичному методі машинного перекладу, і здійснений ним переклад був дуже низької якості, і вважався одним з найгірших варіантів перекладу, який може здійснити онлайн-перекладач. Сьогодні Google використовує «нейронний» метод МП і складає серйозну конкуренцію комерційним підприємствам, продукція яких не є безкоштовною.

«Нейронний» МП (Neural MT)

Даний підхід заснований на методі глибокого засвоєння інформації (deep learning).

Поглиблене навчання/Поглиблене засвоєння інформації (Deep learning) (також відоме як глибоке структурне навчання або ієрархічне навчання) є частиною більш широкої групи методів машинного навчання, що базуються на інтерпретації результатів навчання, на відміну від алгоритмів конкретних завдань. Навчання може бути як керованим, так і некерованим.

Машинне навчання (Machine learning) — комп’ютерна наука, яка дає комп’ютерам можливість засвоювати інформацію без попереднього запрограмування на цю дію. В останні роки «нейронний» МП відзначився стрімким розвитком своїх технологій, навіть компанія Google оголосила, що її перекладацькі сервіси на даний момент в переважній більшості використовують цей метод перекладу, аніж їх попередній статистичний метод.

Інші компанії включно з KantanMT, Omniscien Technologies та SDL також оголосили про подальше використання технології «нейронного» МП в 2017 році.

Для керовання перекладами, породжуваними моделлю GPT-3, потрібне конструювання підказок.[1][2]

Гібридний МП (Hybrid MT)

Останнім часом все більшої популярності набирає гібридний МП (Hybrid machine translation [HMT]).

ГМП використовує сильні сторони обох систем машинного перекладу, в результаті користувач отримує якісний переклад, який забезпечує RBMT та високу швидкість, яку надає статистичний метод.

Кілька компаній, які займаються МП, наприклад Omniscien Technologies (колишня Asia Online), LinguaSys, SYSTRAN, PROMT та інші, стверджують, що використовують саме гібридний вид МП.

Види гібридного МП різняться між собою:

  • Статистична корекція після виконання перекладу системою RBMT:

Спочатку переклади здійснюються системою RBMT, а після цього, з метою виправлення помилок або ж внесення власних корективів застосовується система статистичного МП.

  • Статистичний метод, що керується правилами:

Правила використовують для попередньої обробки даних, задля здійснення кращого управління статистичним механізмом. Правила також використовують для обробки даних після здійснення статистичного перекладу для виконання такої функції як нормалізація.

Цей метод перекладу має багато переваг: він є більш потужним, гнучким (тобто здійснює якісний переклад в багатьох сферах діяльності). Система також контролює процес обробки контенту як при здійсненні завчасного перекладу, (наприклад, розподілу вмісту та термінів що не перекладаються) так і після здійснення перекладу (корегування та виправлення).

Нещодавно, з появою нейронного МП, з’явилася нова версія гібридного МП, яка поєднує в собі переваги 3 видів машинного перекладу: RB, статистичного та нейронного. Такий підхід дозволяє користуватися перевагами NMT та SMT які в процесі перекладу контролюються правилами RBMT. Єдиним недоліком цієї системи перекладу є невід‘ємна складність такої роботи, яка робить його нагідним лише для специфічних випадків використання. Одним з прихильників такого методу для складних випадків — Omniscien Technologies.

Машинний переклад в Україні

За даними 2013 року, українського виробництва є одна система машинного перекладу — Trident Software.

Компанія Трайдент Софтвер була заснована в 1998 році. Відтоді було розроблено декілька лінійок продуктів — Language Master, L-Master 98 і Pragma. Останньою розробкою є Pragma 6.x для англійської, латиської, німецької, польської, російської, української, французької та казахської мов. Перекладач має 56 напрямів перекладу і підтримує близько 50 тематик. Розробники стверджують:

«Користувачами нашого програмного забезпечення є державні органи влади та урядові установи України, банківські структури, великі індустріальні і фінансові компанії, усі загальноосвітні школи України, а також малий бізнес і приватні особи як в Україні, так і по всьому світу».

На території України подальший прогрес у цій галузі навряд чи можна назвати перспективним.

Сучасні українські розробники мають великий потенціал, але більшість із них працюють на великі закордонні компанії. Більшість із них, якщо і стають розробниками незалежних програм із перекладу, то реєструють свої компанії за кордоном, тож їх неправильно називати українськими. Отже, в сфері машинного перекладу більшість пересічних громадян користуються сайтами та програмами іноземного виробництва.

Лідером серед систем МП є Google (Перекладач Google). Його безкоштовна система на базі «нейронного» МП (Нейронний машинний переклад Google) здатна здійснювати більш-менш якісний переклад зі 103 мов та надає доступ до аудіосупроводу (щоправда, він доступний не для всіх мов).

Див. також

  1. Fadelli, Ingrid. Study assesses the quality of AI literary translations by comparing them with human translations. techxplore.com (англ.). Процитовано 18 грудня 2022.
  2. Thai, Katherine; Karpinska, Marzena; Krishna, Kalpesh; Ray, Bill; Inghilleri, Moira; Wieting, John; Iyyer, Mohit (25 жовтня 2022). Exploring Document-Level Literary Machine Translation with Parallel Paragraphs from World Literature (англ.). arXiv:2210.14250 [cs.CL].

Read other articles:

Charles Trip Tucker IIIStar Trek-rollfigur Första framträdandeBroken bowSenaste framträdandeThese Are the Voyages...SkådespelareConnor TrinneerAnknytningLojalitetStjärnflottanGradÖrlogskaptenBefattningMaskinchefInformationArtMänniskaKönManHemvärldJordenFödd2121Död2161 Charles Trip Tucker III är en fiktiv karaktär i TV-serien Star Trek: Enterprise som spelas av Connor Trinneer. Tucker var i Stjärnflottan i 12 år innan han blev handplockad av kommendör Jonathan Archer till tjän...

 

 

American tennis player (born 1943) Billie Jean KingKing in September 2011BornBillie Jean Moffitt (1943-11-22) November 22, 1943 (age 79)Long Beach, California, U.S.Height5 ft 4+1⁄2 in (1.64 m)Tennis careerCountry (sports) United StatesTurned pro1968Retired1990PlaysRight-handed (one-handed backhand)CollegeCalifornia State University, Los AngelesPrize money$1,966,487[1]Int. Tennis HoF1987 (member page)Official websitewww.billiejeanking.comSi...

 

 

Portugal Kapitän Pedro Cordeiro Aktuelles ITF-Ranking 39 Statistik Erste Teilnahme 1925 Davis-Cup-Teilnahmen 56 Bestes Ergebnis World Group Play-offs (1994) Ewige Bilanz 36:57 Erfolgreichste Spieler Meiste Siege gesamt João Cunha e Silva (37) Meiste Einzelsiege João Cunha e Silva (25) Meiste Doppelsiege Emanuel Couto (13) Bestes Doppel Leonardo Tavares / Frederico Gil (9) Meiste Teilnahmen João Cunha e Silva (30) Meiste Jahre João Cunha e Silva (16) Letzte Aktualisierung der Infobox: 5. ...

إيان بانكس (بالإنجليزية: Iain Banks)‏    معلومات شخصية اسم الولادة (بالإنجليزية: Iain Banks)‏  الميلاد 16 فبراير 1954[1][2][3]  دنفيرملين  الوفاة 9 يونيو 2013 (59 سنة) [1][2]  كيركالدي  سبب الوفاة سرطان الحويصلة الصفراوية  مواطنة المملكة المتحدة  عضو في ...

 

 

1949 film by Frank McDonald RingsideFilm posterDirected byFrank McDonaldWritten byRon Ormond (adaptation)Story byDaniel B. UllmanProduced byRon OrmondStarringDon Red BarryTom BrownSheila RyanCinematographyErnest MillerEdited byHugh WinnMusic byWalter GreeneProductioncompanyLippert PicturesDistributed byScreen Guild ProductionsRelease date 14 July 1949 (1949-07-14) Running time68 minutesCountryUnited StatesLanguageEnglish Ringside is a 1949 American film noir drama sport film di...

 

 

Andrea Guardini Andrea Guardini (2015) Zur Person Geburtsdatum 12. Juni 1989 Nation Italien Italien Disziplin Straße Fahrertyp Sprinter Körpergröße 175 cm Renngewicht 66 kg Karriereende 2021 Verein(e) / Renngemeinschaft(en) Casati Ngc Perrel ASD Internationale Team(s) 08/10–12/102011–20122013–201620172018–20192020–2021 ISD-Neri (Stagiaire)Farnese Vini-Selle ItaliaAstana Pro TeamUAE Team EmiratesBardiani CSFGiotti Victoria Wichtigste Erfolge eine Etappe Giro d’Italia ...

هذه مقالة غير مراجعة. ينبغي أن يزال هذا القالب بعد أن يراجعها محرر مغاير للذي أنشأها؛ إذا لزم الأمر فيجب أن توسم المقالة بقوالب الصيانة المناسبة. يمكن أيضاً تقديم طلب لمراجعة المقالة في الصفحة المخصصة لذلك. (نوفمبر 2023) مجلات الاعمال التجارية في المدينة الامريكيةAmerican City Busines...

 

 

Netzwerk-Marketing (auch Network-Marketing, Multi-Level-Marketing (MLM), Empfehlungsmarketing oder Strukturvertrieb) ist eine Spezialform des Direktvertriebs.[1] Im Unterschied zum klassischen Direktvertrieb werden Kunden angehalten, als selbstständige Vertriebspartner nicht nur weitere Kunden anzuwerben, sondern diese auch zu animieren, selbst Vertriebspartner zu werden, um von deren Verkäufen dann von einer Provision profitieren zu können.[2] Je nach Aufbau können Netzwe...

 

 

Formerly missing World War II US Navy submarine. For other ships with the same name, see USS Grayback. Grayback in 1941 History United States BuilderElectric Boat Company, Groton, Connecticut[1] Laid down3 April 1940[1] Launched31 January 1941[1] Commissioned30 June 1941[1] FateSunk by Japanese aircraft south of Okinawa, 27 February 1944[2] General characteristics Class and typeTambor class diesel-electric submarine[2] Displacement 1,475 long to...

Club San FranciscoDatos generalesNombre Club Deportivo San FranciscoApodo(s) San PanchoSanfraFranciscanosFundación 21 de septiembre de 1961 (62 años)Presidente Esteban GuallpaEntrenador Marco GuazhamboInstalacionesEstadio Jorge Andrade CantosCapacidad 14 000 espectadores[1]​Ubicación Calle Galo Plaza Lasso y Calle del Estadio,Azogues, EcuadorInauguración 1984Última temporadaLiga Segunda Categoría de Ecuador(2019) 3.º (Cuadrangulares Semifinales, Grupo B)Copa Copa Ecuado...

 

 

This article's lead section may be too short to adequately summarize the key points. Please consider expanding the lead to provide an accessible overview of all important aspects of the article. (July 2023) Forestation is a vital ecological process where forests are established and grown through afforestation and reforestation efforts.[1] Afforestation involves planting trees on previously non-forested lands, while reforestation focuses on replanting trees in areas that were once defo...

 

 

South Korean actor (born 1979) In this Korean name, the family name is Gong. Gong YooGong in May 2018BornGong Ji-cheol (1979-07-10) July 10, 1979 (age 44)Busan, South Korea[1]EducationKyung Hee University (Theater)OccupationActorYears active2001–presentAgentManagement SOOPKorean nameHangul공유Hanja孔劉Revised RomanizationGong YuMcCune–ReischauerKong YuBirth nameHangul공지철Hanja孔地哲Revised RomanizationGong Ji-cheolMcCune–ReischauerKong Chi-ch'ŏl Gong Ji-ch...

Gastrointestinal physiology is the branch of human physiology that addresses the physical function of the gastrointestinal (GI) tract. The function of the GI tract is to process ingested food by mechanical and chemical means, extract nutrients and excrete waste products. The GI tract is composed of the alimentary canal, that runs from the mouth to the anus, as well as the associated glands, chemicals, hormones, and enzymes that assist in digestion. The major processes that occur in the GI tra...

 

 

Piper ReesePiper Reese bersama Selena Gomez pada 2012 di House of Blues di Hollywood, CANNADA.Lahir13 Agustus 2000 (umur 23)[1][butuh sumber yang lebih baik]Amerika SerikatPekerjaanPewaancara, aktris, penyiarTahun aktif2007–sekarang (sama dengan Cinta Laura)Dikenal atasWaancara artis, stand up komedi, budaya popKarya terkenalPiper's Picks TVInformasi InternetLayanan hos webYouTube, iTunes, Vimeo, PipersPicks.TVTanda tanganHoLy PiPeRoNi, PiPeRiFiCSitus webhttp://www...

 

 

Period of French history from 1870 to 1940 French RepublicRépublique française (French)1870–1940 Flag Coat of arms Motto: Liberté, égalité, fraternité(Liberty, equality, fraternity)Anthem: La Marseillaise(The Marseillaise)Great Seal of France: The French Republic in 1939   France   French protectorates Territories and colonies of the French Republic at the end of 1939 Dark blue: Metropolitan territory Light blue: Colonies, mandates, and protectorates...

1960 studio album by Buddy Tate and His BandTate's DateStudio album by Buddy Tate and His BandReleased1960RecordedDecember 18, 1959StudioVan Gelder Studio, Englewood Cliffs, New JerseyGenreJazzLabelSwingvilleSVLP 2003ProducerEsmond EdwardsBuddy Tate chronology Very Saxy(1959) Tate's Date(1960) Buck & Buddy(1960) Tate's Date is an album by saxophonist Buddy Tate which was recorded in 1959 and released on the Swingville label.[1][2] Professional ratingsReview scoresS...

 

 

2015 French filmThe Roommates PartyFilm posterDirected byAlexandra LeclèreWritten byAlexandra LeclèreProduced byPhilippe GodeauJean-Yves AsselinStarringKarin ViardDidier BourdonValérie BonnetonMichel VuillermozJosiane BalaskoPatrick ChesnaisEdited byRonan TronchotMusic byPhilippe RombiProductioncompanyPan Européenne ProductionDistributed byWild BunchRelease date 23 December 2015 (2015-12-23) Running time106 minutesCountryFranceLanguageFrenchBudget$12.2 million [1]Bo...

 

 

Husein MuradBupati Kepulauan Seribu ke-10Masa jabatan5 Juli 2018 – 27 Juli 2020[1]PresidenJoko WidodoGubernurAnies BaswedanWakil BupatiIsmer HarahapJunaediPendahuluIrmansyahPenggantiJunaediWali Kota Jakarta UtaraMasa jabatan13 Juli 2017 – 4 Juli 2018PresidenJoko WidodoGubernurDjarot Saiful HidayatAnies BaswedanWakil Wali KotaJunaediPendahuluWahyu HaryadiPenggantiSyamsudin LologauWakil Wali Kota Jakarta TimurMasa jabatan20 Desember 2012 – 3 Januari ...

Fairchild Channel FFabricant Fairchild SemiconductorType Console de salonGénération DeuxièmeDate de sortie USA : Novembre 1976 Fin de production 1983Système d'exploitation InconnuProcesseur Fairchild F8 (en)Média CartoucheUnités vendues 250 000modifier - modifier le code - modifier Wikidata La Fairchild Channel F est une console de jeux vidéo produite par Fairchild Semiconductor. Sortie en novembre 1976 en Amérique du Nord, elle y est vendue au prix de 169,95 $. La cons...

 

 

Ti Thong road. Ti Thong Road (Thai: ถนนตีทอง, RTGS: Thanon Ti Thong, pronounced [tʰā.nǒn tīː tʰɔ̄ːŋ]) is one of the roads in inner Bangkok or Rattanakosin Island. It's located in Phra Nakhon district, the short road is only 525 metres (1,722 ft) linking Bamrung Mueang road beside to Wat Suthat and the corner of Giant Swing plaza to Charoen Krung road in front of Sala Chalermkrung Royal Theatre area, including connects to Fueang Nakhon road by Ratcha...

 

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!