Tłumacz Google (ang.Google Translate) – darmowy serwis internetowy Google umożliwiający tłumaczenie tekstu, plików, stron internetowych, mowy i zdjęć na różne języki.
Historia
W 2001 w wyszukiwarce Google wprowadzono funkcję tłumaczenia znalezionych stron internetowych dla anglojęzycznych użytkowników[1]. Do wyszukiwarki dodano także podstronę Language Tools (narzędzia językowe), na której można było tłumaczyć podaną przez siebie stronę[2] i tekst[3]. W 2006 te dwa narzędzia zyskały własną subdomenę[4], tuż po implementacji pierwszej pary języków korzystających ze statystycznego tłumaczenia maszynowego (angielski-arabski)[potrzebny przypis]. Rok 2006 podawany jest jako data uruchomienia Tłumacza Google[5][6][7]. 8 maja 2008 dodano język polski i możliwość tłumaczenia między dwoma dowolnymi językami z list[potrzebny przypis]. W 2013 z serwisu korzystało codziennie 200 milionów osób[8]. W 2016 ponad 500 milionów osób korzystało z serwisu – tłumacząc ponad 100 miliardów słów dziennie[5]. W marcu 2017 język polski zaczął opierać się na systemie GNMT(inne języki), który ulepszył jakość tłumaczeń[potrzebny przypis].
Funkcje
Tłumacz Google pozwala na tłumaczenie tekstu wieloma metodami. Wśród nich są:
tłumaczenie tekstu – tłumaczy tekst wprowadzony za pomocą klawiatury (fizycznej lub wirtualnej, w tym przez pismo odręczne[9]) bądź głosowo[10].
tłumaczenie dokumentów – wersja na komputer pozwala tłumaczyć pliki[11].
tłumaczenie stron – Tłumacz Google pozwala na tłumaczenie stron internetowych[11].
tłumaczenie zdjęć – tłumaczy tekst wykryty w obrazie z aparatu lub zapisanym zdjęciu. Funkcja dostępna wyłącznie w aplikacji mobilnej[12].
„dotknij, aby przetłumaczyć” – tłumaczenie wybranego tekstu z innych aplikacji. Funkcja dostępna wyłącznie w aplikacji mobilnej[13].
konwersacja – pozwala na tłumaczenie dwujęzycznego dialogu. Funkcja dostępna wyłącznie w aplikacji mobilnej[14].
transkrypcja – zamiana mowy na tekst. Funkcja dostępna wyłącznie w aplikacji mobilnej[15].
Serwis natychmiastowo tłumaczy wyrażenia podczas wpisywania i potrafi wykryć ich język. Wpisując wyraz lub wyrażenie, translator działa niczym słownik, oferując kilka propozycji[potrzebny przypis]. Po zalogowaniu się na konto Google, serwis pozwala na zapisanie tłumaczeń na później[16] i przegląd historii[17].
W przypadku języków, które nie posługują się pismem łacińskim, dostępna jest automatyczna transliteracja. Do tego dostępne są edytory wprowadzania znaków (IME) dla większości tych języków[potrzebny przypis].
Aplikację mobilną wydano najpierw na system Android w styczniu 2010, a 8 lutego 2011[37] na iOS. Oprócz tego, istniała wcześniejsza aplikacja HTML dla urządzeń z iOS, powstała w sierpniu 2008[38]. Poza podstawowymi funkcjami, aplikacja pozwala na użytkowanie w trybie offline, tłumaczenie napisów z aparatu oraz plików graficznych[39] (dzięki Word Lens[40]), wykonywanie tłumaczeń w innych aplikacjach, oraz tłumaczenie ludzkiej mowy na żywo w trybie konwersacji[41] lub w trybie transkrypcji[15].
API
Google oferuje swoje API dla Tłumacza za opłatą[42]. 26 maja 2011 ogłoszono zakończenie poprzedniej, darmowej oferty (z terminem 1 grudnia[43][44][45]), lecz ze względu na dużą popularność API do tego nie doszło[46].
Społeczność
Między latami 2013[47] a 2024[48], Google pozwalało wolontariuszom (crowdsourcing) poprzez aplikację Google Crowdsource[49][50] lub opcję „Społeczność” na stronie internetowej[51][52][53][54][55]. Użytkownicy mogli tłumaczyć podane zdania, oceniać istniejące tłumaczenia, a w przypadku języków BETA, testować wczesną wersję translatora.
Metody tłumaczenia
Od listopada 2016, Google korzysta z GNMT[23][56], a wcześniej – z mechanizmu statycznego tłumaczenia maszynowego[57] i SYSTRAN[potrzebny przypis].
GNMT
Google Neural Machine Translation (GNMT) opracowano w celu zwiększenia płynności i dokładności serwisu. System ten wykorzystuje dużą, sztuczną sieć neuronową (dokładniej sieć długiej pamięci krótkoterminowej[58][59][60][61]) zdolną do deep learningu. Dzięki wykorzystaniu metody tłumaczenia maszynowego opartą na próbkach (EBMT(inne języki)), w której system „uczy się z milionów przykładów”, GNMT pozwala poprawić jakość tłumaczeń[62]. Według badaczy Google technika ta umożliwia przekładanie „całych zdań naraz, a nie kawałek po kawałku. Zwraca uwagę na szerszy kontekst, aby znaleźć najbardziej odpowiednie tłumaczenia, które następnie przestawia i dostosowuje tak, aby przypominały ludzką mowę z poprawną gramatyką”. Zamierzona przez GNMT architektura została zaimplementowana dla wszystkich języków obsługiwanych przez serwis[63][64]. Dzięki kompleksowej strukturze, „system z czasem uczy się tworzyć lepsze, bardziej naturalne tłumaczenia”. Sieć GNMT jest zdolna do międzyjęzykowego tłumaczenia maszynowego, która koduje „semantykę zdania, niż zapamiętując frazę do tłumaczenia”, a system nie wymyślił własnego języka uniwersalnego, ale korzysta z „podobieństw znalezionych między wieloma językami”[65]. GNMT zostało wypuszczone dla polskiego w marcu 2017[66].
GNMT umożliwia tłumaczenie bezpośrednio z jednego języka na inny (L1 → L2), co jest poprawą względem wcześniejszych wersji, które najpierw tłumaczyły na język angielski, a dopiero potem na język docelowy (L1 → EN → L2). Jest to możliwe dzięki „tłumaczeniu zero-shot”[67], które dotyczy par języków, których system nie oferował bezpośrednio (np. z japońskiego na koreański)[potrzebny przypis].
Statystyczne tłumaczenia maszynowe i SYSTRAN
Przed październikiem 2007 tłumaczenia między językami innymi niż arabski, chiński i rosyjski działały w oparciu o SYSTRAN – silnik oprogramowania, który był stosowany np. w Babel Fish. Od tego czasu, do implementacji GNMT Tłumacz Google używał zastrzeżonej technologii wewnętrznej opartej na statystycznym tłumaczeniu maszynowym[68][69][57].
System ten nie stosował się do zasad gramatycznych – jego algorytmy były oparte na analizie statystycznej, a nie na tradycyjnej analizie opartej na regułach gramatyki. Oryginalny twórca systemu, Franz Josef Och, skrytykował skuteczność algorytmów opartych na regułach, w zamian popierając metody statystyczne. Oryginalne wersje serwisu wykorzystywały metodę zwaną statystycznym tłumaczeniem maszynowym, opartą na badaniach Ocha, zwycięzcy konkursu DARPA na tłumaczenie maszynowe w 2003 roku. Och był szefem grupy tłumaczeń maszynowych Google, aż do momentu dołączenia do Human Longevity, Inc. w lipcu 2014[70].
Według Ocha solidna podstawa do stworzenia użytecznego systemu statystycznego dla nowej pary języków od podstaw powinna składać się z dwujęzycznego korpusu tekstowego (lub kolekcji równoległej) o objętości ponad 150–200 milionów słów i dwóch jednojęzycznych korpusów, z których każdy powinien zawierać ponad miliarda słów. Modele statystyczne z tych danych byłyby następnie wykorzystywane do tłumaczenia między językami. Do zebrania tak ogromnej ilości danych językowych Google wykorzystał dokumenty i transkrypty od Organizacji Narodów Zjednoczonych i Parlamentu Europejskiego[71][72]. ONZ zazwyczaj publikuje dokumenty w sześciu oficjalnych językach, co ułatwiło zebranie ogromnego korpusu[potrzebny przypis].
Tłumacz Google nie tłumaczył bezpośrednio z jednego języka na inny (L1 → L2). W zamian, w większości przypadków treści były tłumaczone najpierw na angielski, a dopiero potem na język docelowy (L1 → EN → L2)[potrzebny przypis].
Przy generowaniu tłumaczenia Tłumacz Google szukał wzorców w setkach milionów dokumentów, które zostały już przełożone przez ludzkich tłumaczy, aby znaleźć najtrafniejsze odwzorowanie. Wykrywszy je, Tłumacz mógł w przemyślany sposób domyślić się, jak powinno brzmieć poprawne tłumaczenie[potrzebny przypis].
Tłumacz Google nie jest tak dokładny, jak tłumaczenie ludzkie. Jeżeli tekst jest krótki[74], poprawnie sformułowany i używa formalnego słownictwa (w szczególności kiedy oba języki mają duże korpusy językowe[75]), wynik jest podobny do satysfakcjonującego[76], lecz w im mniejszym stopniu spełnia te kryteria, tym wynik będzie gorszy. Ludzka ocena wykazała, że tłumaczenia przekazywały zamysł powyżej 50% tylko dla 35 języków z 102[77]. W przypadku par bez angielskiego po którejkolwiek stronie, liczba ta wynosi około 1%. Badania z 2011 pokazały, że Google uzyskał wynik trochę większy niż na zaliczenie egzaminu z angielskiego na UCLA[78]. Pod względem formalności, spójności, długości oraz struktury zdań wyniki Tłumacza są podobne względem tłumaczeń ludzkich[79]. Podczas badań Google z 2018, użytkownicy języków mieli ocenić tłumaczenia w skali od 0 do 6 – średnia wyniosła 5,43[80].
Jakość tłumaczeń różni się między językami ze względu na powszechność języków i źródeł na ich temat. Wiele języków azjatyckich i afrykańskich (z wyjątkami np. afrikaans i chińskiego) wypada gorzej w porównaniu z tymi europejskimi, a tych rdzennych z Oceanii i Ameryk nie ma prawie wcale[potrzebny przypis].
Działając jako słownik, Tłumacz często popełniał błędy względem słów polisemicznych – 100 najpopularniejszych słów w korpusie słownika Oxford ma średnio 15 znaczeń[81], a większość znanych wyrazów ma ich co najmniej 2. Ponieważ translator opierał się na tłumaczeniu statystycznym, a tłumaczenia korzystały z angielskiego jako bazy, w niektórych przypadkach oznaczało to błędne tłumaczenia. Jeżeli w bazie nie ma wyrazu, serwis jest w stanie wymyślić dla niego tłumaczenie[82].
Ograniczenia
Tłumacz Google, jak inne serwisy tłumaczeniowe, posiada ograniczenia. Serwis ogranicza liczbę znaków (5000), które mogą być jednorazowo przetłumaczone, lecz można to obejść, tłumacząc tekst w pliku. O ile serwis pozwala użytkownikowi zrozumieć tekst, często tłumaczy słowo-do-słowa, co czyni tłumaczenia niedokładnymi. Pod względem gramatycznym, serwis zmaga się z rozróżnianiem aspektu dokonanego i niedokonanego w językach romańskich, co przyczynia się do błędów, których by nie napotkał ludzki tłumacz. Translator borykał się także z trybem łączącym[83] oraz francuskim tu i vous (w angielskim oba tłumaczy się jako you)[84]. Tłumacz ma problemy z rozumieniem polisemii i związków frazeologicznych[85].
Odbiór i wykorzystanie w praktyce
Tuż po wystartowaniu serwisu, wygrał on międzynarodowy turniej w tłumaczeniu maszynowym z angielskiego na chiński i arabski[86].
Wykorzystanie w sądzie
W 2017 Tłumacz Google został użyty podczas rozprawy sądowej w Teesside Magistrates’ Court, ponieważ nie można było zarezerwować tłumacza dla oskarżonego mówiącego po chińsku[87].
↑YonghuiY.WuYonghuiY. i inni, Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, „arXiv:1609.08144 [cs]”, 26 września 2016, arXiv:1609.08144 [dostęp 2018-05-01].
↑Michael AM.A.NielsenMichael AM.A., Reinventing discovery. The new era of networked science, Princeton, N.J.: Princeton University Press, 2012, ISBN 978-0-691-14890-8, OCLC724663975 [dostęp 2020-10-10]. Brak numerów stron w książce