HiFACTMix: یه مدل باحال برای چک‌کردن واقعیت حرف‌های سیاسی به زبان هینگلیش (ترکیبی از هندی و انگلیسی)!

Fall Back

خب بچه‌ها، بذارین یه موضوع داغ و جذاب رو با هم بررسی کنیم: داستان چک‌کردن واقعیت حرف‌های سیاسی، اونم توی زبون‌هایی که کد-میکس (Code-mixed) هستن! ببینین، کد-میکس یعنی جایی که آدما چندتا زبان رو توی حرف زدن قاطی می‌کنن؛ مثلاً هینگلیش که ترکیبی از هندی و انگلیسیه و کلی هم توی هند به‌خصوص بین سیاستمدارها و مردم عادی استفاده میشه.

معمولاً سیستم‌هایی که برای فکت‌چکینگ یا همون بررسی صحت حرف‌ها ساخته شدن، فقط رو زبون‌های پرمنبع و تک‌زبانه تمرکز دارن؛ مثلاً فقط انگلیسی یا فقط هندی. مشکل اینجاست که این سیستم‌ها نمی‌تونن توی شرایط واقعی و چندزبانه مثل هینگلیش درست جواب بدن، چون حرف زدن روزمره مردم و مخصوصاً سیاستمدارا، پر از این ترکیب‌های زبانیه و مدل‌های فعلی نمی‌تونن اون‌قدرا خوب بفهمن.

حالا یه تیم باحال اومدن و یه چالش جدید به اسم HiFACT درست کردن. HiFACT یه دیتاست جدیده که حدود ۱۵۰۰ ادعای واقعی از حرف‌های ۲۸ تا از وزیرای ایالتی هند رو داره؛ اونم دقیقاً به همون هینگلیش قاطی پاتی خودمون! هر ادعا رو با مدرک و سند (که میشه همون Evidence) و برچسب درست یا نادرست بودن (که بهش میگن Veracity Label) آورده. اینجوری هرکی بخواد می‌تونه چک کنه حرف‌ها راست بودن یا نه.

ولی این تیم فقط به دیتاست اکتفا نکرده! یه مدل جدید ساختن به اسم HiFACTMix که به‌طرز باحالی روی این داده‌های کد-میکس جواب میده. این مدل چندتا ویژگی خاص داره:

  • کدگذاری متنی چندزبانه (Multilingual Contextual Encoding): یعنی مدل می‌تونه همزمان هم انگلیسی رو بفهمه، هم هندی، هم اون ترکیب وسطشون رو!
  • هماهنگ کردن ادعا و مدرک (Claim-Evidence Semantic Alignment): یعنی مدل بررسی می‌کنه ببینه حرف گفته شده واقعاً با مدرک آورده‌شده می‌خونه یا نه.
  • ساختن گراف از مدارک (Evidence Graph Construction) و استفاده از هوش گرافی (Graph Neural Reasoning): این یعنی مدل یه جور نقشه ذهنی از همه مدارک درست می‌کنه و مثل یه کارآگاه توش دنبال سرنخ می‌گرده!
  • تولید توضیح به زبان طبیعی (Natural Language Explanation Generation): بعد اینکه مدل قضاوتش رو کرد، یه توضیح قشنگ و قابل فهم هم می‌نویسه که چرا این حرف رو راست یا دروغ دونسته؛ اینجوری ما هم می‌فهمیم چی به چیه.

نتیجه آزمایشا هم نشون داده که HiFACTMix تونسته مدل‌های قبلی که فقط چندزبانه بودن رو رد کنه و با دقت بیشتری واقعیت‌سنجی بکنه! تازه برای هر مورد دلیل محکمی هم ارائه میده.

در کل، کار این تیم کلی مهمه چون راه رو باز کرده برای پیشرفت توی فکت‌چکینگ توی زبان‌های ترکیبی و کم‌منبع، به‌خصوص توی فضای سیاسی و شبکه‌های اجتماعی هند. خلاصه، اگه دوست دارین بدونین سیاستمدارا واقعاً چی گفتن و واقعیت و افسانه رو قاطی نکنین، این مدل جدید می‌تونه کلی بهتون کمک کنه!

منبع: +