XFacta: دیتاست جدید و واقعی برای تشخیص شایعات مدرن با هوش مصنوعی همه‌فن‌حریف!

Fall Back

بذار راحت و خودمونی بهت بگم چی شده! این روزها واقعاً بحث شایعه و اطلاعات غلط تو شبکه‌های اجتماعی داغه، مخصوصاً وقتی که با عکس و فیلم و متن سر و کار داریم. حالا مثلاً شروع کردن به استفاده از یه سری مدل خیلی قوی به اسم MLLM که مخفف Multimodal Large Language Models هست، یعنی مدل‌های زبانی بزرگ که با چندتا نوع اطلاعات مختلف مثل عکس و متن می‌تونن کار کنن و همه‌فن‌حریفن. این مدل‌ها امید دادن که بتونن جلوی شایعه‌سازی رو بگیرن.

مشکل از کجا شروع شد؟ خب تا الان دیتاست‌هایی که برای تمرین این مدل‌ها داشتن، یا خیلی قدیمی بودن (مثلا داستان‌هایی که مردم الان یادشون رفته!) و چون مدل‌ها قبلاً اونارو دیدن راحت تشخیص می‌دن، یا خیلی ساختگی و به درد نخور بودن که اصلاً به دنیای واقعی نمی‌خورد. برای همین تو آزمایش و ارزیابی، مدل‌ها بیشتر حفظ کردن تا اینکه واقعاً بفهمن جریان از چه قراره!

یه نکته دیگه هم اینه که هنوز هم کسی نمی‌دونه مشکل واقعی مدل‌ها کجاست؟ یعنی عیب کارشون بیشتر تو پیدا کردن مدرک و شواهدِ درست هست یا مشکلشون موقع فکر کردن و نتیجه‌گیریه؟ (که بهش می‌گن «evidence retrieval vs. reasoning»، یعنی «پیدا کردن مدرک در مقابل استدلال».)

حالا محقق‌ها اومدن یه حرکت خفن زدن و دیتاست جدیدی درست کردن به اسم XFacta که بروز، واقعی و نزدیک به چیزیه که واقعاً تو شبکه‌های اجتماعی اتفاق می‌افته. خلاصه شو بخوام بگم، XFacta دیگه داستان مصنوعی و فیک نداره؛ ماجرای هر روزمون رو با تمام جزئیاتش میاره سر میز مدل‌ها!

اینا چی کار کردن تو این تحقیق؟ اومدن استراتژی‌های مختلف مدل‌های MLLM رو آزمایش کردن؛ یعنی مدل‌های مختلف رو با معماری‌های متفاوت، در مقیاس‌های مختلف و حتی با نحوه‌های ارزیابی قدیم و جدید مقایسه کردن که ببینن واقعاً کدوم قوی‌ترن. پس مدل‌ها رو نه فقط با هم، بلکه با روش‌های قدیمی تشخیص شایعه هم مقایسه کردن!

یه چیز خیلی باحال هم اضافه کردن: یه چارچوب نیمه‌خودکار به اسم detection-in-the-loop که کمک می‌کنه دیتاست XFacta همیشه آپدیت بمونه و با شایعات روز دنیا هماهنگ باشه. این یعنی سیستمشون دائم در حال یادگرفتنه و به روز می‌مونه (حالت داغ و زنده!).

آخر سر، نتایج بررسی‌هاشون کلی نکته و بینش جدید داده برای محقق‌ها و کسایی که دنبال روش بهتر برای تشخیص شایعات تو عکس و ویدیو و متن هستن. حتی کد و دیتاست رو هم منتشر کردن که همه بتونن استفاده کنن و این حوزه سریع‌تر پیشرفت کنه!

در کل، اگه دنبال دونستن اینی که مدرن‌ترین مدل‌های هوش مصنوعی چطور می‌تونن جلوی شایعه‌سازی تو اینترنت رو بگیرن و تازه‌ترین و واقعی‌ترین دیتاست برای تمرینشون چیه، XFacta همین چیزیه که باید دربارش بخونی!

منبع: +