چطوری میشه شایعات چندرسانه‌ای (متنی+تصویری) رو تو شبکه‌های اجتماعی بشناسیم؟

خب رفقا، بیاین درباره یه موضوع داغ تو شبکه‌های اجتماعی صحبت کنیم: شایعات و اطلاعات غلط! مخصوصاً زمان‌هایی مثل انتخابات یا بحران‌هایی مثل دوران کرونا واقعاً موج بزرگی از اطلاعات اشتباه توی کل اینترنت پخش میشه. کلی تحقیق درباره تشخیص این شایعات شده، اما بیشترشون فقط به متن یا عکس به‌تنهایی توجه کردن.

حالا یه گروه از محقق‌ها اومدن یه کار جالب کردن: گفتن بزاریم متن، عکس و حتی اطلاعات مربوط به رفتار آدمایی که این مطالب رو منتشر می‌کنن (که بهشون ویژگی‌های اجتماعی یا Social Features می‌گن!) رو با هم ترکیب کنیم تا یه مدل بهتر برای شناسایی شایعات داشته باشیم.

اصلاً Multimodal یعنی چی؟ یعنی ما فقط به یه نوع داده اکتفا نمی‌کنیم، بلکه از چند نوع داده (مثلاً متن و تصویر) برای بررسی موضوع استفاده می‌کنیم. اینجا هم منظورشون همینه، که مثلاً یه توییت هم متن داره هم عکس، و ما باید هر دو رو بررسی کنیم.

حالا Early Fusion یعنی چی؟ اینم یه سبک ترکیبِ اطلاعاته! به جای اینکه صبر کنیم هرکدوم از این داده‌ها (مثل متن یا تصویر) جدا جدا بررسی شن و بعد نتایجشون رو قاطی کنیم، از اول همه‌شو می‌ریزیم تو یه قابله و یکجا مدل‌سازی می‌کنیم. یه جورایی سریع همه داده‌ها رو قاطی می‌کنیم و اجازه می‌دیم مدل از اول همه‌شونو با هم یاد بگیره.

این تحقیق چی کار کرده؟ اومده ۱۵۲۹ تا توییت (یا پست تو شبکه اجتماعی X، همون توییتر قدیمی خودمون!) رو که هر دوشون هم متن دارن هم عکس، تو دوران کرونا و انتخابات جمع‌آوری کرده. بعد برای هر توییت اومده کلی داده غنی‌تر کرده. مثلاً چی؟
– اطلاعات اجتماعی مثل اینکه چند نفر پست رو لایک کردن یا Retweet زدن.
– اطلاعات تصویری مثل اون چیزی که تو عکس هست (که بهش می‌گن object detection یعنی تشخیص اشیاء تو عکس!)
– حتی نوشته‌هایی که تو عکس وجود داره رو هم با روشی به اسم OCR در آوردن. (OCR یعنی Optical Character Recognition؛ همون تبدیل عکس نوشته به متن قابل خوندن توسط کامپیوتر.)

حالا واسه اینکه مدلشون بهتر آموزش ببینه، از انواع مدل‌های یادگیری ماشین استفاده کردن؛ هم مدل‌های نظارت‌دار (supervised) و هم بدون نظارت (unsupervised). یه توضیح ریز: مدل‌های supervised یعنی مدل با راهنمایی و جواب‌های درست یاد می‌گیره، ولی مدل‌های unsupervised خودش باید الگوها رو پیدا کنه.

نتیجه‌ش جالب بوده! ترکیب همزمان هر سه نوع ویژگی (متن + عکس + اجتماعی) باعث شد مدلشون حدود ۱۵ درصد بهتر از مدل‌هایی عمل کنه که فقط یه نوع داده رو بررسی می‌کنن (یعنی مثلاً فقط متن یا فقط عکس). نسبت به مدل‌هایی که فقط دوتا داده رو ترکیب می‌کردن (مثلاً متن + عکس)، حدود ۵ درصد دقیق‌تر شد. این یعنی اضافه کردن اون قطعه سوم اطلاعات (ویژگی‌های اجتماعی) واقعاً مهمه.

یه نکته بامزه دیگه که بررسی کردن، این بود که رفتار پخش شدن شایعات رو هم تحلیل کردن. این یعنی فهمیدن کدوم تیپ توییت‌های شایعه‌دار و چه جور آدمایی بیشتر اینا رو منتشر می‌کنن – یه جور مطالعه رفتاری، که مثلاً می‌خواد بگه آدمایی با این ویژگی‌ها بیشتر اهل پخش شایعات هستن یا نه.

در کل، نتیجه خیلی واضح بود: برای اینکه بتونیم شایعات رو بهتر تو شبکه‌های اجتماعی بگیریم، نباید فقط خود متن یا عکس رو ببینیم. باید همه اطلاعات به هم وصل بشه و با هم تحلیل شه. اینجوری هم دقت کار بالاتر میره، هم ماجراهای گمراه‌کننده تو فضای مجازی راحت‌تر زمین‌گیر می‌شن!

پس اگه از فناوری خوشت میاد و دوست داری بدونی چطور میشه جلوی شایعه‌پراکنی رو تو اینستاگرام، توییتر و… گرفت، این سبک مدل‌های چندرسانه‌ای (Multimodal) با ترکیب سریع داده‌ها (Early Fusion) واقعاً راه‌حل آینده‌ان!
منبع: +