تا حالا فکر کردی چطور میشه فهمید یه سیستم ترجمه ماشینی (یعنی همون سیستمهایی که متن رو اتوماتیک به یه زبون دیگه تبدیل میکنن) داره درست کار میکنه یا نه؟ خب، ارزیابی ترجمه ماشینی یه مرحله جدانشدنی تو فرآیند ساخت این سیستمهاست. اگه خروجی این موتورهای ترجمه رو بررسی نکنیم، اصلاً نمیفهمیم چقدر خوب ترجمه میکنن یا ایراد دارن.
حالا مشکل چیه؟ تا الان خیلی از متریکهایی که برای زبان انگلیسی یا زبانای اروپایی ساخته شدن (متریک همون ابزاریه که به ما نشون میده کیفیت ترجمه چقدره) واسه زبونای هندی یا بومی هند مثل گجراتی خوب جواب نمیدن. مثلاً چیزی که روی انگلیسی عالی کار میکنه، روی گجراتی ممکنه اصلاً نتیجه نده! حالا گجراتی یکی از زبانهای هندیه که کلی هم گویشور داره.
حالا محققای این مقاله اومدن یه متریک جدید ساختن مخصوص ارزیابی ترجمه انگلیسی-گجراتی و اونم بر پایه یادگیری نظارتی یا Supervised Learning (یعنی یاد دادن با مثال درست و غلط به مدل). این متریکها بر اساس مقایسه با ترجمه انسانی – که معمولاً یه نمونه درست و رسمی محسوب میشه – کار میکنن. جالب اینجاست که واسه آموزش این ابزار دو مدل مختلف هم ساختن:
اولی: یه مدل با ۶ لایه پنهان (hidden layer یعنی همون لایههایی که تو شبکه عصبی وجود داره و مغز مدل حساب میشه!) و ۵۰۰ بار تکرار آموزش (epoch یعنی چند بار کل دادهها رو به مدل نشون دادن).
دومی: دوتا هم مدل ساختن با ۱۰ لایه پنهان و باز هم ۵۰۰ بار آموزش. کلاً خواستن بدونن کدوم مدل بهتر جواب میده.
برای تست و امتحان این متریکها چی کار کردن؟ اومدن خروجی ۷ تا موتور ترجمه مختلف رو گرفتن و هزار تا نمونه خروجی ترجمه باعث این سیستمها رو درآوردن. بعدش هر کدوم رو با ترجمه انسانی مقایسه کردن و دیدن این مدلهای جدید چقدر نظرشون با آدمای واقعی که ترجمه رو قضاوت میکنن هماهنگه.
جالبیش به اینه که وقتی این متریکهای جدید رو مقایسه کردن با متریکهای قبلی، دیدن عملکردشون بهتره و همبستگی خیلی نزدیکتری با نظر آدمای واقعی (همون human correlation که یعنی چقدر مدل با قضاوت انسانی یکی درمیون میخوره) داره.
در کل، این تحقیق نشون میده برای زبونایی مثل گجراتی که ساختار و واژگان متفاوت با انگليسی و زبونای اروپایی دارن، باید متریکهای ارزیابی تخصصی و مخصوص به خودشون ساخت و اگه از ابزارای استاندارد فقط استفاده کنی نتیجه واقعی نمیگیری.
پس اگه یه روز خواستی یه سیستم ترجمه انگلیسی به گجراتی راه بندازی یا ارزیابیش کنی، بدون الآن یه ابزاری داریم که هم قابل آموزش و انعطافپذیره هم با قضاوت انسانی جور درمیاد!
منبع: +