ترجمهٔ ماشینی (به انگلیسی: Machine translation) با کوتهنوشت MT، زیر شاخهای از زبانشناسی محاسباتی است که نحوه استفاده از نرمافزار برای ترجمه متن یا گفتار از یک زبان به زبان دیگر را بررسی میکند. در سطح مقدماتی، ترجمه ماشینی یک جایگزینی ساده برای کلمات از زبان طبیعی به زبان دیگری است. با استفاده از تکنیکهای زبانشناسی پیکرهای، ترجمههای پیچیده بیشتری قابل دستیابی هستند. همچنین این تکنیکها کنترل بهتر تفاوتهای گونهشناسی در زبان، تشخیص عبارات و ترجمهٔ اصطلاحات را به خوبی و درستی جدا کردن عبارات غیر مرسوم در متن، مقدور میسازند.
ترجمه ماشینی با «ترجمه به کمک رایانه» (به انگلیسی: computer-aided translation) یا «ترجمه انسانی به کمک رایانه» (به انگلیسی: machine-aided human translation) با کوتهنوشت MAHT یا «ترجمه ماشینی تعاملی» (به انگلیسی: interactive translation) متفاوت است و نباید با آنها اشتباه گرفته شود.
نرمافزارهای ترجمه ماشینی کنونی اغلب به کاربر اجازهٔ تغییر دلخواه بر اساس حوزه کاری یا حرفهای دلخواه را میدهند (همانند گزارش آب و هوا). در واقع پیشرفت کیفیت خروجی با استفاده از محدود کردن کلمات جایگزین شونده، انجام میشود.
این تکنیک بهطور خاص در حوزهٔ رسمی یا زبانهای فرموله شدهاستفاده میشود. این بدین معنی است که ترجمه ماشینی از اسناد قانونی و دولتی آسانتر از تولید خروجی قابل استفاده از مکالمات یا متون غیر چهارچوب بندی شده دیگر است.
همچنین کیفیت خروجی بهبود یافته میتواند با استفاده از دخالت انسان بدست آید. برای مثال سیستمهایی موجودند که اگر کاربر بهطور کاملاً واضحی کلماتی که اسامی خاص هستند را معین کرده باشد، قادر به ترجمه دقیقتری هستند. با کمک گرفتن از این تکنیکها ترجمه ماشینی به عنوان یک ابزار برای کمک کردن به مترجمان (انسانها) و بسیاری از موضوعهای محدود، قادر به تولید خروجی قابل استفاده و نهایی است.
در ترجمهٔ ماشینی ویژگیهایی وجود دارد که نه تنها از نظر جاذبه و کشش علمی، بلکه، از دیدگاه اقتصادی و دیگر ضرورتها و اقتضاهای عصر، انجام آن را کاملاً توجیه میکند. به عنوان مثال، در مقر سازمان ناتو در بروکسل و جامعه اروپا علیرغم آنکه حدود ۱۲۰۰ مترجم ورزیده به کار اشتغال دارند، در حال حاضر از ترجمه ماشینی نیز استفاده میشود. دلیل این امر سرعت و هزینهاست. میزان کاری که مترجمی ورزیده در خلال چندین روز انجام میدهد، توسط کامپیوتر در عرض چند دقیقه انجام میشود. حتی اگر کیفیت و دقت ترجمه ماشینی کمتر از حاصل کار مترجم باشد، باز هم از جهت های گوناگون اهمیت و ارزش خاص آن چشمگیر است.
ترجمه گوگل و مترجم گوگل هرگز نمیتواند جای ترجمه ی حرفهای انسانی را بگیرد و با عباراتی که کاملاً صحیح باشند، متنی سلیس و روان ایجاد نماید. هنگامی که مترجم گوگل به عبارت یا لغتی برخورد میکند که دارای تعداد زیادی از معانی است، نمیتواند مناسبترین لغت را انتخاب نماید و خروجی آن به احتمال زیاد دارای بیانی غیرطبیعی یا اشتباه خواهد بود و این موضوع استفاده از گوگل ترجمه برای ترجمه متن را غیرممکن مینماید.
تاریخچه
ترجمهٔ ماشینی از جملهٔ نخستین اهداف مورد نظر در علوم رایانه و به خصوص در حوزهٔ هوش ماشینی به حساب میآید و سابقهٔ آن به حدود نیم سده پیش از این بازمیگردد. نخستین ترجمهای که بهطور کامل توسط رایانه انجام شد، ترجمهٔ متنی بود از زبان انگلیسی به زبان روسی. گر چه از آن زمان تاکنون فناوری ترجمهٔ ماشینی رشد زیادی داشتهاست، هنوز هم نقصهای فراوانی را داراست. اصولاً چون کامپیوترها نمیتوانند مانند انسان هوشمند باشند، ترجمهای هم که توسط آنها انجام شود، ترجمهٔ کاملی نخواهد بود. نمیتوان انتظار داشت که با استفاده از یک نرمافزار مترجم، هر متنی به آسانی ترجمه شود. نرمافزارهای مترجم، در بهترین حالت، عمل ترجمه را با دقتی در حدود ۷۰ درصد انجام میدهند. برای به دست آوردن نتیجه بهتر، لازم است قبل و بعد از ترجمه، مقداری ویرایش روی متن انجام شود.
در طی چند دهه اخیر و همزمان با گسترش و پیشرفت زبانشناسی رایانهای، در بسیاری از کشورهای جهان، تلاشهای همهجانبه و پیگیر در جهت ترجمهٔ متون از طریق کامپیوتر انجام گرفته، و حاصل کار با توجه به تنگناها، محدودیتها، و مسائل خاص ترجمه درخور توجهاست. در بعضی از زمینهها حاصل کار واقعاً رضایتبخش است، ولی، در برخی موارد نتایج به دست آمده را علیرغم قابل فهم بودن، باید ویراستاری کرد. به خودی خود نوع متن و میزان پیچیدگی آن اهمیت زیادی در نتیجه کار دارد.
در پس این فرایند بظاهر آسان، عملیات شناختی پیچیدهای واقع است. به منظور رمز گشایی معنای متن شروع، مترجم باید قابلیت تفسیر و تجزیه تحلیل تمام ویژگیهای متن را داشته باشد. یک فرایند که احتیاج به دانش عمیقی از دستور زبان، جملهشناسی (نحو)، معناشناسی و اصطلاحات از هر دو زبان شروع و پایان دارد به همان اندازه باید دانش مربوط به فرهنگ صحبت کنندگان آن زبان را نیز داشته باشد.
از آن جهت، چالشی در ترجمه ماشینی وجود دارد که چگونه یک کامپیوتر را آموزش دهیم که بتواند همانند یک انسان متنی را بفهمد و بتواند یک متن جدید در زبان مقصد بسازد که بنظر میرسد توسط انسان نوشته شدهاست.
این مسئله ممکن است به روشهای مختلفی انجام شود.
روشها
برای دست یافتن به ترجمه ماشینی میتوان روشی مبتنی بر قوانین زبانشناسی استفاده کرد، به این معنی که کلمات از نظر زبانشناسی ترجمه خواهند شد. (در واقع متناسبترین کلمات مقصد جایگزین کلمات مبدأ خواهند شد)
این موضوع که موفقیت ترجمه ماشینی پیش از هر چیز نیازمند حل مسئلهفهم زبان طبیعی است، اغلب مورد بحث است. بهطور عام روشهای قانون مند،[۱] متن را با استفاده از ساختن واسطی سمبلیک -که نهایتاً متن زبان مقصد از آن ایجاد میشود- تجزیه میکنند.
با توجه به طبیعت نمایش واسطه، یک روش به عنوان ترجمه ماشینی بین زبانی[۲] یا ترجمه ماشینی مبتنی بر انتقال[۳] معرفی میشود. این روشها نیاز به واژگان وسیعی با اطلاعات تکواژشناسی، دستور زبان و معناشناسی دارند.
با دادن دادههای کافی نرمافزارهای ترجمه ماشینی حتی برای صحبتکننده بومی یک زبان به حدی خوب کار میکنند که معنی تقریبی آنچه توسط یک صحبتکننده بومی دیگر نوشته شدهاست بفهمد.
دشواری کار ترجمه خودکار، بدست آوردن اطلاعات کافی از نوع صحیح آن برای پشتیبانی روشی خاص است. به عنوان مثال یک پیکره وسیع چند زبانی از دادهها، برای روشهای آماری مورد نیاز است، حال آنکه برای روشهای مبتنی بر دستورزبان لازم نیست. اما از سویی دیگر روشهای مبتنی بر دستورزبان نیاز به یک زبانشناس حرفهای برای طراحی دقیق دستورزبانی که استفاده خواهد شد، دارند.
برای ترجمه بین زبانهای نزدیک بهم، تکنیکی به نام ترجمه ماشینی مبتنی بر انتقال سطحی[۴] ممکن است استفاده شود.
روش قاعدهمند(rule_based)
الگوی ترجمه ماشینی قانون مند شامل الگوی ترجمه ماشینی مبتنی بر انتقال، ترجمه ماشینی بین زبانی و ترجمه ماشینی مبتنی بر فرهنگ لغت است.
روش بین زبانی
ترجمه ماشینی بین زبانی نمونهای از ترجمه ماشینی قاعدهمند است. در این روش، متن به زبان مبدأ به یک متن بین زبانی (بعنوان مثال، زبانهای بینالمللی کمکی همانند اسپرانتو) که مستقل از زبان مقصد است، تبدیل میشود. سپس متن به زبان مقصد از متن بین زبانی، تولید خواهد شد.
روش مبتنی بر فرهنگ لغت(dictionary_ based)
ترجمه ماشینی میتواند از روشی مبتنی بر دادههای فرهنگ لغت استفاده کند و این بدان معنی است که کلمات به همان گونهای که در فرهنگ لغات موجودند، ترجمه میشوند.
روش آماری(static_based)
ترجمه ماشینی به روش آماری، سعی در تولید ترجمههایی دارد که از روشهای آماری مبتنی بر پیکرههای متنی دوزبانی استفاده میکنند. همانند پیکره کانادایی هانسارد(Canadian Hansard corpus)، بایگانی انگلیسی-فرانسوی مجلس کانادا و یوروپارل(EUROPARL) و بایگانی پارلمان اروپا.
درحال حاضر این چنین پیکرههایی موجودند و نتایج ثمربخشی از ترجمه متون از نوع مشابهی، بدست میآید اما این چنین پیکرهای هنوز بسیار کمیاب است. اولین نرمافزار آماری ترجمه ماشینی، کاندید(CANDIDE) تولیدی شرکت آیبیام بود. گوگل نیز سیسترن(SYSTRAN) را برای سالهای متمادی استفاده کرد اما نهایتاً در اکتبر ۲۰۰۷ به مترجمی آماری تغییر روش داد. به تازگی، گوگل قابلیتهای ترجمه خود را به وسیلهٔ دادن ۲۰۰ میلیون کلمه از اسناد سازمان ملل به عنوان ورودی سیستم-برای تعلیم سیستم خود- بهبود بخشیدهاند. و بدین سان دقت ترجمهها بهبود یافتهاست.[۵]
روش مبتنی بر مثال
ترجمه ماشینی مبتنی بر مثال[۶] توسط ماکوتو ناگاوُ(Makoto Nagao)[۷] در سال ۱۹۸۴ مطرح شد. این روش اغلب با عنوان روش استفادهکننده از پیکره دوزبانی معرفی میشود. در واقع این روش، ترجمهای بر اساس تمثیل است و میتوان آن را به عنوان پیادهسازی روش استدلال موردی در یادگیری ماشینی تلقی کرد.
ترجمه ماشینی پیوندی
روش پیوندی، قدرتمندی دو روش آماری و قاعدهمند را باهم ادغام میکند.[۸] بسیاری از شرکتهای ترجمه ماشینی (همانند آسیا آنلاین و سیسترن(SYSTRAN)) مدعی داشتن روشی چندگانه مبتنی بر دو روش قاعدهمند و آماری در ترجمه ماشینی، هستند. این روشها به دو گونه مختلف زیر میباشند:
قوانین در مرحله دوم توسط روشهای آماری پردازش میشوند
در این روش ترجمه به وسیلهٔ موتورهای قاعدهمند انجام میشود. سپس معیارهای آماری برای تنظیم/تصحیح خروجی موتور قاعدهمند اعمال میشوند.
معیارهای آماری از ابتدا توسط قوانین هدایت میشوند
قوانین برای پیش-پردازش دادهها برای هدایت بهتر موتور آماری استفاده میشوند. قوانین همچنین برای پس-پردازش خروجی موتور آماری برای پیادهسازی عملیاتی همچون نرمالسازی استفاده میشوند. این روش قدرت، کنترل و انعطافپذیری بسیار بیشتری دارد.
رمزگشایی
در سالهای اخیر دانشگاه کالیفرنیای جنوبی (USC) بر روی روشهایی تمرکز کردهاند که ایدههای اولیه آن از رمزنگاری استخراج شدهاند. این روش هنوز در سطح تحقیقات اولیه است و تا رسیدن به یک روش قابل قبول فاصله زیادی باقی است. اما در صورت تحقق این روش ادعای وارن ویور که ترجمه ماشینی را تنها روشی برای رمزگشایی از متن رمز شده زبان مبدأ در زبان مقصد میدانست، تحقق خواهد یافت.
مدل ترجمه در این روش بدون داده موازی از روی پیکرههای نظیر آموزش داده میشوند و لذا در صورت تحقق تحولی شگرفت در فرایند ترجمه به خصوص برای زبانهایی که دارای منابع زبانشناسی محدود هستند، خواهد بود.
مسئلههای اصلی
ابهامزدایی
ابهامزدایی از کلمات با یافتن ترجمه مناسب برای کلمهای با بیش از یک معنی در ارتباط است. این مسئله اولین بار در سال ۱۹۵۰ توسط یهوشوا بار-هیلل (Yehoshua Bar-Hillel) مطرح شد.[۹] او به این موضوع که بدون یک فرهنگ نامهٔ جهانی، یک ماشین هرگز نمیتواند بین دو معنی کلمه، معنی صحیح را تشخیص دهد، تکیه کرد. امروزه روشهای بسیاری برای حل این مشکل به وجود آمدهاند که این روشها بهطور تقریبی به دو دستهٔ روشهای «سطحی» و «عمقی» تقسیم میشوند.
روشهای سطحی تصور میکنند که هیچ دانشی از متن ندارند. آنها به سادگی روشهای آماری را برای کلمات اطراف کلمه مبهم، اعمال میکنند. اما روشهای عمقی دانشی وسیع از کلمه را متصور میشوند. تا به حال، روشهای سطحی موفقیت بیشتری داشتهاند.
آقای کلود پایرون(Claude Piron)، یکی از مترجمهای بسیار قدیمی سازمان ملل و سازمان بهداشت جهانی، نوشتهاست که ترجمهٔ ماشینی، در بهترین نوع آن، آسانترین بخش کار مترجمان را میتواند انجام دهد. بخش سختتر و زمانگیر معمولاً در ارتباط با تشخیص ابهامات متن منبع است که این عمل نیاز به برطرف کردن آشفتگیهای دستور زبانی و لغوی زبان مقصد دارد.[۱۰]
روش ایدهآل عمقی ممکن است نرمافزار مترجم را ملزوم به انجام تمامی تحقیقات موردنیاز برای برطرف کردن اینگونه ابهامات بکند. اما این امر نیاز به هوش مصنوعی بسیار وسیعتری نسبت به آنچه تا به حال در این زمینه به دست آمده، دارد.
روش سطحی که به سادگی ابهام یک عبارت انگلیسی را حدس میزند، شانس بالایی دراشتباه حدس زدن نیز دارد. روش سطحی ای وجود دارد که میگوید: «دربارهٔ هر ابهام از خود کاربر بپرس». اما این روش بنا به تخمین آقای پایرون، تنها ۲۵٪ از کار مترجم حرفهای را انجام خواهد داد(۷۵٪ سختتر کار برای انسان میماند و ماشین در انجام آن ناتوان است)
گفتارهای غیر استاندارد
یکی از مسائل ترجمههای ماشین پایین بودن دقتشان در ترجمهٔ گفتارهای غیررسمی و محاورهای است. ترجمه ماشین بر پایه دادههای آماری ورودی دادههایشان غیر محاورهای است و در نتیجه در گفتارهای استاندارد بهتر عمل میکنند؛ و روشهای قاعدهمند به خاطر طبیعتشان جملههای غیر استاندارد رایج را پوشش نمیدهند.
واحدهای اسمی
واحدهای اسمی (Name entities)، به انتساب اسم به جوهرههای وجودی در جهان خارج گفته میشود. مانند اسامی اشخاص و مکانها و … یا ابزار زمان و کیفیت چیزی. چالش اول در ترجمه ماشین، شناسایی واحدهای اسمی است. مثلاً در ترجمهٔ «European Union» اگر به عنوان واحد اسمی شناسایی نشود ترجمه ماشینی تک به تک کلمات ممکن است به ترجمهٔ «اتحادیه اروپایی» منجر میشود با اینکه «اتحادیه اروپا» ترجمه صحیح فارسی آن میباشد. باید اشاره کرد که در موارد زیادی یک به خصوص اسم اشخاص ترجمه پذیر نیست و راه جایگزین آن به جای ترجمه نویسهگردانی است.
نرمافزارهای کاربردی
درحال حاضر نرمافزارهای بسیاری برای ترجمهٔ زبان طبیعی، موجودند که بسیاری از آنها آنلاین میباشند. همانند:
آسیا آنلاین:[۱۱] موتور ترجمه ماشینی قابل سفارشیسازی است که ادعا میشود خروجی اش کیفیتی نزدیک به انسان دارد. آسیا آنلاین همچنین ابزاری برای ویرایش و ساخت ماشین مترجم دلخواه دارد که آن را بوسیلهٔ مجموعهٔ استودیوی زبانی خود، توسعه بخشیدهاست.
مترجم خودکار زبان هندی به پنجابی:[۱۲] مترجمی است که از روش مستقیم استفاده میکند. این مترجم امکان ترجمهٔ صفحات وب هندی به زبان پنجابی را فراهم میسازد. همچنین امکان نوشتن پست الکترونیک به زبان هندی و ارسال آن به دریافتکننده به زبان پنجابی را دارد.
ورد لینگو (Worldlingo): مترجمی که بر مبنای دو روش آماری و قاعدهمند کار میکند (همانند مترجم مایکروسافت آفیس).
سیسترن:[۱۳] همان سیستم یاهو! بیبل فیش (Yahoo! Babel Fish).
پرامت (Promt): سرویسهای ترجمهٔ آنلاین در Voila.fr و Orange.fr
اپتک:[۱۴] یک سیستم مترجم خودکار چندگانه (در سال ۲۰۰۹ ارائه شد)
ایدوماکس:[۱۵] سرویسهای مترجم آنلاین در idiomax.com
با اینکه هیچیک از سیستمها، خلاصهای بدون خطا، تمام خودکار و با کیفیت بالا نمیتوانند تولید کنند، بسیاری از سیستمهای تمام خودکار، خروجی منطقی ای را تولید میکنند.[۱۶][۱۷][۱۸] کیفیت ترجمه ماشینی اگر حوزهٔ موضوعی متن محدود و کنترل شده باشد، اساساً بهتر خواهد شد.
با وجود محدودیتهای موروثی، نرمافزارهای ترجمه ماشینی در سرتاسر جهان مورد استفاده میباشند. احتمالاً بزرگترین مؤسسه استفادهکننده از این نرمافزارها کمیسیون اروپاست. پروژه مولتو(MOLTO)، که به وسیلهٔ دانشگاه گوتنبورگ ایجاد شدهاست، بیش از ۲٫۳۷ میلیون یورو به عنوان بودجهٔ حمایتی از اتحادیه اروپا برای ساخت ابزار مترجم قابل اطمینان دریافت کرده که بتواند بیشتر زبانهای اتحادیه اروپا را دربر بگیرد.
تاگل تکست(Toggletext)، یک سیستم مبتنی بر انتقال است که زبان انگلیسی را به اندونزیایی ترجمه میکند.
گوگل ادعا کردهاست که نتایجی که قولش را داده بود، به وسیلهٔ استفاده از موتور ترجمه ماشینی آماری اش حاصل شدهاست.[۱۹] ترجمه آماری که در ابزار زبان گوگل (Google language tools) برای تبدیل بین زبانهای عربی، انگلیسی و بین چینی و انگلیسی استفاده شدهاست، امتیاز کلی ۰٫۴۲۸۱ را از مؤسسه ملی استاندارد و تکنولوژی گرفت که درقیاس با بلو-۴ شرکت آی بی ام که در تابستان ۲۰۰۶ امتیاز ۰٫۳۹۵۴ گرفته بود، برتری یافت.
رشد جالب توجه شبکههای اجتماعی، همانند فیس بوک یا پیامرسانهای فوری همانند اسکایپ(Skype)، گوگل تاک(Google Talk) و ام اس ان مسنجر(MSN Messenger)، در سالهای اخیر، مورد استفادهٔ دیگری برای نرمافزارهای ترجمه ماشینی شدهاست. چراکه بدین وسیله کابران به زبانهای مختلف میتوانند با یکدیگر ارتباط برقرار کنند.
نرمافزارهای ترجمه ماشینی همچنین برای بسیاری از موبایلها، کامپیوترهای جیبی و.. عرضه شدهاست. بخاطر قابلیت حمل آنها، اینگونه وسایل به عنوان ابزارهای ترجمه برای موبایل مشخص شدهاند که شبکه تجارتی با استفاده از موبایل را بین شرکایی با زبانهای مختلف ممکن ساختهاست. همچنین این نرمافزارها نیاز به مترجم انسان به عنوان واسطی در مکالمات دوطرف را از بین میبرند.
ارزیابی ترجمه خودکار در حوزههای مختلف
ترجمهٔ متون رسمی و قاعدهمند و همچنین متون علمی به این علت که از وضوح بیشتر و ابهام کمتری برخوردارند به سهولت از طریق کامپیوتر انجام میگیرد.
ترجمه متون ادبی که از دیدگاه علمی در حیطه ترجمه فرهنگی قرار دارد، اگر غیرممکن نباشد، چندان ساده نخواهدبود. براساس پیشبینیهای اهل فن بدون شک طی چند سال آتی نتایج حاصل از ترجمه متون ادبی از طریق کامپیوتر با نتایج فعلی آن کاملاً متفاوت خواهدبود.
تخمین زدن ترجمهٔ ماشینی
یکی از مسائلی که همواره در زمینه ترجمهٔ ماشینی مورد توجه بودهاست، روشها و پارامترهای ارزیابی نتایج ترجمهاست. قدیمیترین روش استفاده از داورهای انسانی برای ارزیابی کیفیت یک ترجمه است. اگرچه ارزیابی توسط انسان زمانبر است اما هنوز قابل اطمینانترین راه برای مقایسهٔ سیستمهای مختلف همانند سیستمهای مبتنی بر روشهای آماری و قاعدهمند است.
ابزارهای ارزیابی خودکار شامل بلو محصول شرکت آیبیام(BLEU),[۲۱] نیست(NIST) و متئور(METEOR) میباشند. همچنین، دانشگاه بارسلون سیستمی را با نام IQ برای ارزیابی سیستمهای ترجمه ماشینی ارائه دادهاست که بر اساس چندین روش میتواند ارزیابی را انجام دهد. این سیستم ارزیابی به صورت متنباز بوده و هر کسی میتواند بر اساس نیاز خودش آن را تنظیم نموده و استفاده نماید.
بسنده کردن به ترجمهٔ ماشین بدون ویرایش مجدد آن، این حقیقت را که ارتباطات بوسیلهٔ زبان انسان با مفاهیم نهفته شده در آن است، نادیده میگیرد؛ و حقیقت دیگر این است که حتی متون کاملاً ترجمه شده توسط انسان نیز ممکن است خطا و اشتباه داشتهاست. در نتیجه برای اطمینان حاصل کردن از اینکه ترجمهٔ تولید شده توسط ماشین برای انسان مورد استفاده خواهد بود و کیفیت قابل قبولی خواهد داشت، متون ترجمه شده توسط ماشین باید در پایان توسط انسان بازبینی و ویرایش شوند. گرچه، سیستمهایی که مبتنی بر روشهای خاصی از ترجمه ماشینی عمل میکنند، بعضاً آزادانه خروجی قابل قبولی را تولید میکنند که نیازی به نظارت نهایی انسان ندارد.
↑Nagao, M. 1981. A Framework of a Mechanical Translation between Japanese and English by Analogy Principle, in Artificial and Human Intelligence, A. Elithorn and R. Banerji (eds.) North- Holland, pp. 173-180, 1984.
↑Papineni, K. , Roukos, S. , Ward, T. and Zhu, W.J. , 2002, July. BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.