خب بچهها، بذارین یه موضوع داغ و جذاب رو با هم بررسی کنیم: داستان چککردن واقعیت حرفهای سیاسی، اونم توی زبونهایی که کد-میکس (Code-mixed) هستن! ببینین، کد-میکس یعنی جایی که آدما چندتا زبان رو توی حرف زدن قاطی میکنن؛ مثلاً هینگلیش که ترکیبی از هندی و انگلیسیه و کلی هم توی هند بهخصوص بین سیاستمدارها و مردم عادی استفاده میشه.
معمولاً سیستمهایی که برای فکتچکینگ یا همون بررسی صحت حرفها ساخته شدن، فقط رو زبونهای پرمنبع و تکزبانه تمرکز دارن؛ مثلاً فقط انگلیسی یا فقط هندی. مشکل اینجاست که این سیستمها نمیتونن توی شرایط واقعی و چندزبانه مثل هینگلیش درست جواب بدن، چون حرف زدن روزمره مردم و مخصوصاً سیاستمدارا، پر از این ترکیبهای زبانیه و مدلهای فعلی نمیتونن اونقدرا خوب بفهمن.
حالا یه تیم باحال اومدن و یه چالش جدید به اسم HiFACT درست کردن. HiFACT یه دیتاست جدیده که حدود ۱۵۰۰ ادعای واقعی از حرفهای ۲۸ تا از وزیرای ایالتی هند رو داره؛ اونم دقیقاً به همون هینگلیش قاطی پاتی خودمون! هر ادعا رو با مدرک و سند (که میشه همون Evidence) و برچسب درست یا نادرست بودن (که بهش میگن Veracity Label) آورده. اینجوری هرکی بخواد میتونه چک کنه حرفها راست بودن یا نه.
ولی این تیم فقط به دیتاست اکتفا نکرده! یه مدل جدید ساختن به اسم HiFACTMix که بهطرز باحالی روی این دادههای کد-میکس جواب میده. این مدل چندتا ویژگی خاص داره:
- کدگذاری متنی چندزبانه (Multilingual Contextual Encoding): یعنی مدل میتونه همزمان هم انگلیسی رو بفهمه، هم هندی، هم اون ترکیب وسطشون رو!
- هماهنگ کردن ادعا و مدرک (Claim-Evidence Semantic Alignment): یعنی مدل بررسی میکنه ببینه حرف گفته شده واقعاً با مدرک آوردهشده میخونه یا نه.
- ساختن گراف از مدارک (Evidence Graph Construction) و استفاده از هوش گرافی (Graph Neural Reasoning): این یعنی مدل یه جور نقشه ذهنی از همه مدارک درست میکنه و مثل یه کارآگاه توش دنبال سرنخ میگرده!
- تولید توضیح به زبان طبیعی (Natural Language Explanation Generation): بعد اینکه مدل قضاوتش رو کرد، یه توضیح قشنگ و قابل فهم هم مینویسه که چرا این حرف رو راست یا دروغ دونسته؛ اینجوری ما هم میفهمیم چی به چیه.
نتیجه آزمایشا هم نشون داده که HiFACTMix تونسته مدلهای قبلی که فقط چندزبانه بودن رو رد کنه و با دقت بیشتری واقعیتسنجی بکنه! تازه برای هر مورد دلیل محکمی هم ارائه میده.
در کل، کار این تیم کلی مهمه چون راه رو باز کرده برای پیشرفت توی فکتچکینگ توی زبانهای ترکیبی و کممنبع، بهخصوص توی فضای سیاسی و شبکههای اجتماعی هند. خلاصه، اگه دوست دارین بدونین سیاستمدارا واقعاً چی گفتن و واقعیت و افسانه رو قاطی نکنین، این مدل جدید میتونه کلی بهتون کمک کنه!
منبع: +