چطور هوش مصنوعی قراره جلوی فیک‌نیوز رو اونم تو هر زبانی و هر مدلی بگیره!

حتماً شما هم دیدین که امروزه خبرای جعلی یا همون فیک‌نیوزها دارن فضای مجازی رو پر می‌کنن و خب خیلی وقتا تشخیصشون واقعاً کار راحتی نیست. حالا فکر کنین یه سیستم باشه که بتونه این فیک‌نیوزها رو تو زبون‌ها و شکلای مختلف (هم متن، هم عکس!) تشخیص بده و تازه توضیح بده که چرا فکر می‌کنه یه خبر فیکه یا نیست. خیلی باحاله نه؟

تا همین چند وقت پیش، بیشتر مدلایی که واسه شناسایی فیک‌نیوز ساخته بودن فقط انگلیسی بلد بودن، فقط متن رو می‌خوندن و اصلاً نمی‌شد فهمید از روی چی به نتیجه رسیدن. اما یه تحقیق جدید اومده دو تا کار بزرگ انجام داده که خیلی می‌تونه راه رو عوض کنه:

اولیش یه دیتاست عظیم ساختن از ۷۴ هزار خبر به پنج تا زبون مختلف: هندی، گجراتی، مراتی، تلوگو و البته انگلیسی. هر خبر هم کنار متنش عکس داره که معلوم شه مدل فقط روی متن حساب نمی‌کنه. (دیتاست یعنی مجموعه داده ها؛ مثلاً کلی خبر کنار هم که بخوای روشون مدل بسازی.)

نوآوری دوم سیستم HEMT-Fake بود! اسمش یه کم عجیبه ولی بیاین ساده بشکنیمش:

  • این سیستم متن رو با یه ساختار پیچیده می‌فهمه که اسمش ترکیبی از ترنسفورمر، CNN و BiLSTMـه (خب ترنسفورمر و اینا یعنی مدلای خیلی قوی هوش مصنوعی که می‌تونن معنی و مفهوم رو از متن بکشن بیرون.)
  • بعد تصویر خبر رو هم با کمک یه شبکه عصبی به‌اسم ResNet آنالیز می‌کنه. (ResNet هم یه مدل تخصصی برای فهم عکس و اجزای جزئی اون.)
  • اطلاعات متادیتا، مثل اینکه نویسنده کیه یا اصل منبع چیه هم با روشی به اسم GraphSAGE مدل می‌شه (GraphSAGE یعنی یه مدل شبکه‌ای که ارتباط بین داده‌های مختلف رو همزمان بررسی می‌کنه.)
  • همه اینا آخرش با چیزی به اسم attention ترکیب می‌شن که ببینن کدوم بخش‌ها بیشتر به درد تشخیص می‌خورن. (Attention یعنی توجه مدل به بخش‌های مهم‌تر داده‌ها.)

خوبیش اینه که HEMT-Fake فقط نتیجه «درسته یا غلطه» نمی‌ده، خودش می‌تونه توضیح بده چرا این تصمیم رو گرفته! واسه این کار سه تا تکنیک باحال کنار هم گذاشتن: واسه کدوم کلمه، کدوم جمله یا حتی متن یا عکس، مدل از چی برداشت کرده. SHAP و LIME هم دوتا روش معروف توضیح‌پذیر کردن مدلن، یعنی مدل می‌گه دقیقاً کجاها باعث شدن خبر رو فیک یا واقعی درنظر بگیره.

این سیستم ۵ درصد از مدلای قبلی مثل XLM-R و mBERT تو چهار تا زبون پیشرفت کرده. مخصوصاً تو زبونایی که کمتر دیتا دارن (مثلاً هندی یا تلوگو)، اختلاف ۷ تا ۸ درصدی داره! (XLM-R و mBERT هم مدلای معروف مولتی‌زبان عصبی‌ان که معمولاً واسه متن به کار می‌رن.)

ولی فقط این‌جا تموم نمی‌شه! HEMT-Fake می‌تونه تو شرایط سخت هم درست کار کنه. مثلاً اگه فیک‌نیوز رو بیان با جمله‌بندی‌های جدید (یعنی Paraphrase کنن) بازم ۸۵ درصد دقت داره! تازه رو خبرای فیک تولیدشده با هوش‌مصنوعی هم تا ۸۰ درصد درست تشخیص می‌ده. این یعنی نصف سیستم‌های قدیمی خطا می‌زنن، ولی این مدل خیلی مقاوم‌تره.

آخراش هم از همه مهم‌تر: اومدن گفتن این توضیح‌هایی که مدل می‌ده واقعاً به درد می‌خورن یا نه. آدم‌ها خودشون بررسی کردن و ۸۲ درصد وقتا گفتن توضیح‌های مدل «معنادار و کمک‌کننده‌اس»!

خلاصه، این سیستم جدید واقعاً می‌تونه به Fact-checkerها یا همون کسانی که صحت خبرها رو بررسی می‌کنن کمک کنه که سریع‌تر و مطمئن‌تر فیک‌نیوزها رو پیدا کنن و دلیلش رو هم راحت بفهمن! به نظرتون آینده فیک‌نیوز با مدلای اینطوری جمع می‌شه؟

منبع: +