چطوری فکت‌چکینگ نیمه‌اتوماتیک تو پرتغالی رو با مدارک بیشتر باحال‌تر کنیم!

Fall Back

تو این دوره و زمونه کل قضیه پخش شایعات و اطلاعات غلط خیلی تندتر از اینه که آدم‌ها بتونن دونه دونه همه رو دستی چک کنن. برای همین بحث سیستم‌های Fact-Checking نیمه‌اتوماتیک (یا همون SAFC که یعنی ترکیبی از آدم و ماشین برای بررسی صحت اخبار و مطالب) کلی اهمیت پیدا کرده. مخصوصاً برای زبان پرتغالی که منابع و دیتاست‌های آماده برای این کار خیلی کمه!

تا الان همه دیتاست‌ها بیشتر فقط روی خود متن و ویژگی‌های توی متن خبر تمرکز داشتن و کمتر کسی اومده سراغ این که مدارک و نشونه‌های بیرونی (یا External Evidence یعنی همون منابع و لینک‌هایی که میشه از جاهای دیگه پیدا کرد و به صحت خبر کمک می‌کنن) رو هم وارد دیتاست‌ها کنه. معلومه که بدون این مدارک بیرونی، سیستم‌های Fact-Checking لاک پشت می‌شن و نمی‌تونن خیلی قوی خبرها و ادعاها رو بررسی کنن.

خب حالا کاری که توی این پروژه انجام شده این بوده که اومدن سه تا از دیتاست‌های معروف پرتغالی—Fake.Br، COVID19.BR و MuMiN-PT—رو قشنگ غنی‌تر کردن. غنی‌تر کردن یعنی چی؟ یعنی علاوه بر متن اصلی خبر، با استفاده از مدل‌های زبانی بزرگ (LLMs که منظور همون مدل‌هایی مثل Gemini 1.5 Flash هستن، این‌ها می‌تونن بخونن و بفهمن ادعای اصلی متن چیه)، ادعای اصلی رو درمیارن و بعد با سرچ زدن تو موتور جستجو (مثلاً Google Search و Google FactCheck Claims Search API که ابزارهای پیشرفته جستجو و پیدا کردن مدرک هستن)، میرن دنبال مدرک برای تایید یا رد اون ادعا.

خلاصه با این تکنیک، سیستم مثل یه کاربر واقعی میره واسه هر خبر دنبال مدرک و بعدش همه چی رو به دیتاست اضافه می‌کنه. اینطوری کسایی که سیستم‌های فکت‌چکینگ می‌سازن، کلی کورپوس غنی و آماده دارن و لازم نیست همش دنبال منبع بگردن.

یه بخش باحال دیگه این کار هم اضافه کردن چارچوب اعتبارسنجی و پیش‌پردازش داده‌هاست—این هم یعنی قبل از این‌که داده‌ها برن تو دیتاست، کلی چکش‌کاری و پالایش میشن، مثلاً نزدیک-تکراری‌ها (near-duplicate detection یعنی پیدا کردن داده‌هایی که تقریباً شبیه هم هستن اما نسخه‌های مختلف دارن) رو درمیارن تا دیتاست تر و تمیزتر باشه و نتایج قوی‌تری به دست بیاد.

در کل، کاری که این پروژه کرده دقیقاً همون حلقه مفقوده‌ایه که اکثر منابع پرتغالی نداشتن: آوردن مدرک‌های واقعی و بیرونی برای هر ادعا. این یعنی یک قدم گنده به سمت ساخت ابزارهای قوی فکت‌چکینگ برای کسایی که پرتغالی کار می‌کنن. تازه کلی ابزار و چارچوب واسه تمیزکاری داده‌ها هم اضافه کردن که دیتاست رو باحال‌تر و کاربردی‌تر می‌کنه. حالا هر کی بخواد سیستم SAFC (نیمه‌اتوماتیک) بسازه، کارش خیلی راحت‌تر شده!

منبع: +