خب رفقا، بیاین درباره یه موضوع داغ تو شبکههای اجتماعی صحبت کنیم: شایعات و اطلاعات غلط! مخصوصاً زمانهایی مثل انتخابات یا بحرانهایی مثل دوران کرونا واقعاً موج بزرگی از اطلاعات اشتباه توی کل اینترنت پخش میشه. کلی تحقیق درباره تشخیص این شایعات شده، اما بیشترشون فقط به متن یا عکس بهتنهایی توجه کردن.
حالا یه گروه از محققها اومدن یه کار جالب کردن: گفتن بزاریم متن، عکس و حتی اطلاعات مربوط به رفتار آدمایی که این مطالب رو منتشر میکنن (که بهشون ویژگیهای اجتماعی یا Social Features میگن!) رو با هم ترکیب کنیم تا یه مدل بهتر برای شناسایی شایعات داشته باشیم.
اصلاً Multimodal یعنی چی؟ یعنی ما فقط به یه نوع داده اکتفا نمیکنیم، بلکه از چند نوع داده (مثلاً متن و تصویر) برای بررسی موضوع استفاده میکنیم. اینجا هم منظورشون همینه، که مثلاً یه توییت هم متن داره هم عکس، و ما باید هر دو رو بررسی کنیم.
حالا Early Fusion یعنی چی؟ اینم یه سبک ترکیبِ اطلاعاته! به جای اینکه صبر کنیم هرکدوم از این دادهها (مثل متن یا تصویر) جدا جدا بررسی شن و بعد نتایجشون رو قاطی کنیم، از اول همهشو میریزیم تو یه قابله و یکجا مدلسازی میکنیم. یه جورایی سریع همه دادهها رو قاطی میکنیم و اجازه میدیم مدل از اول همهشونو با هم یاد بگیره.
این تحقیق چی کار کرده؟ اومده ۱۵۲۹ تا توییت (یا پست تو شبکه اجتماعی X، همون توییتر قدیمی خودمون!) رو که هر دوشون هم متن دارن هم عکس، تو دوران کرونا و انتخابات جمعآوری کرده. بعد برای هر توییت اومده کلی داده غنیتر کرده. مثلاً چی؟
– اطلاعات اجتماعی مثل اینکه چند نفر پست رو لایک کردن یا Retweet زدن.
– اطلاعات تصویری مثل اون چیزی که تو عکس هست (که بهش میگن object detection یعنی تشخیص اشیاء تو عکس!)
– حتی نوشتههایی که تو عکس وجود داره رو هم با روشی به اسم OCR در آوردن. (OCR یعنی Optical Character Recognition؛ همون تبدیل عکس نوشته به متن قابل خوندن توسط کامپیوتر.)
حالا واسه اینکه مدلشون بهتر آموزش ببینه، از انواع مدلهای یادگیری ماشین استفاده کردن؛ هم مدلهای نظارتدار (supervised) و هم بدون نظارت (unsupervised). یه توضیح ریز: مدلهای supervised یعنی مدل با راهنمایی و جوابهای درست یاد میگیره، ولی مدلهای unsupervised خودش باید الگوها رو پیدا کنه.
نتیجهش جالب بوده! ترکیب همزمان هر سه نوع ویژگی (متن + عکس + اجتماعی) باعث شد مدلشون حدود ۱۵ درصد بهتر از مدلهایی عمل کنه که فقط یه نوع داده رو بررسی میکنن (یعنی مثلاً فقط متن یا فقط عکس). نسبت به مدلهایی که فقط دوتا داده رو ترکیب میکردن (مثلاً متن + عکس)، حدود ۵ درصد دقیقتر شد. این یعنی اضافه کردن اون قطعه سوم اطلاعات (ویژگیهای اجتماعی) واقعاً مهمه.
یه نکته بامزه دیگه که بررسی کردن، این بود که رفتار پخش شدن شایعات رو هم تحلیل کردن. این یعنی فهمیدن کدوم تیپ توییتهای شایعهدار و چه جور آدمایی بیشتر اینا رو منتشر میکنن – یه جور مطالعه رفتاری، که مثلاً میخواد بگه آدمایی با این ویژگیها بیشتر اهل پخش شایعات هستن یا نه.
در کل، نتیجه خیلی واضح بود: برای اینکه بتونیم شایعات رو بهتر تو شبکههای اجتماعی بگیریم، نباید فقط خود متن یا عکس رو ببینیم. باید همه اطلاعات به هم وصل بشه و با هم تحلیل شه. اینجوری هم دقت کار بالاتر میره، هم ماجراهای گمراهکننده تو فضای مجازی راحتتر زمینگیر میشن!
پس اگه از فناوری خوشت میاد و دوست داری بدونی چطور میشه جلوی شایعهپراکنی رو تو اینستاگرام، توییتر و… گرفت، این سبک مدلهای چندرسانهای (Multimodal) با ترکیب سریع دادهها (Early Fusion) واقعاً راهحل آیندهان!
منبع: +