تو این دوره و زمونه کل قضیه پخش شایعات و اطلاعات غلط خیلی تندتر از اینه که آدمها بتونن دونه دونه همه رو دستی چک کنن. برای همین بحث سیستمهای Fact-Checking نیمهاتوماتیک (یا همون SAFC که یعنی ترکیبی از آدم و ماشین برای بررسی صحت اخبار و مطالب) کلی اهمیت پیدا کرده. مخصوصاً برای زبان پرتغالی که منابع و دیتاستهای آماده برای این کار خیلی کمه!
تا الان همه دیتاستها بیشتر فقط روی خود متن و ویژگیهای توی متن خبر تمرکز داشتن و کمتر کسی اومده سراغ این که مدارک و نشونههای بیرونی (یا External Evidence یعنی همون منابع و لینکهایی که میشه از جاهای دیگه پیدا کرد و به صحت خبر کمک میکنن) رو هم وارد دیتاستها کنه. معلومه که بدون این مدارک بیرونی، سیستمهای Fact-Checking لاک پشت میشن و نمیتونن خیلی قوی خبرها و ادعاها رو بررسی کنن.
خب حالا کاری که توی این پروژه انجام شده این بوده که اومدن سه تا از دیتاستهای معروف پرتغالی—Fake.Br، COVID19.BR و MuMiN-PT—رو قشنگ غنیتر کردن. غنیتر کردن یعنی چی؟ یعنی علاوه بر متن اصلی خبر، با استفاده از مدلهای زبانی بزرگ (LLMs که منظور همون مدلهایی مثل Gemini 1.5 Flash هستن، اینها میتونن بخونن و بفهمن ادعای اصلی متن چیه)، ادعای اصلی رو درمیارن و بعد با سرچ زدن تو موتور جستجو (مثلاً Google Search و Google FactCheck Claims Search API که ابزارهای پیشرفته جستجو و پیدا کردن مدرک هستن)، میرن دنبال مدرک برای تایید یا رد اون ادعا.
خلاصه با این تکنیک، سیستم مثل یه کاربر واقعی میره واسه هر خبر دنبال مدرک و بعدش همه چی رو به دیتاست اضافه میکنه. اینطوری کسایی که سیستمهای فکتچکینگ میسازن، کلی کورپوس غنی و آماده دارن و لازم نیست همش دنبال منبع بگردن.
یه بخش باحال دیگه این کار هم اضافه کردن چارچوب اعتبارسنجی و پیشپردازش دادههاست—این هم یعنی قبل از اینکه دادهها برن تو دیتاست، کلی چکشکاری و پالایش میشن، مثلاً نزدیک-تکراریها (near-duplicate detection یعنی پیدا کردن دادههایی که تقریباً شبیه هم هستن اما نسخههای مختلف دارن) رو درمیارن تا دیتاست تر و تمیزتر باشه و نتایج قویتری به دست بیاد.
در کل، کاری که این پروژه کرده دقیقاً همون حلقه مفقودهایه که اکثر منابع پرتغالی نداشتن: آوردن مدرکهای واقعی و بیرونی برای هر ادعا. این یعنی یک قدم گنده به سمت ساخت ابزارهای قوی فکتچکینگ برای کسایی که پرتغالی کار میکنن. تازه کلی ابزار و چارچوب واسه تمیزکاری دادهها هم اضافه کردن که دیتاست رو باحالتر و کاربردیتر میکنه. حالا هر کی بخواد سیستم SAFC (نیمهاتوماتیک) بسازه، کارش خیلی راحتتر شده!
منبع: +