اگه زیاد تو شبکههای اجتماعی بچرخی، حتماً دیدی که بعضی وقتها حرفای جنسیتزدهای زده میشن که خیلی واضح و رو نیستن، اما بازم آزاردهندهان. مثلاً ممکنه یکی یه جمله بگه که توش تبعیض جنسیتی داره، اما اونقدر سربسته گفته شده که تشخیصش سخته. به این نوع سکسیسم میگن سکسیسم ضمنی یا Implicit Sexism یعنی همون تبعیض جنسیتی که زیرپوستیه و فوراً قابل شناسایی نیست.
مشکل اینجاست که روشهای قدیمی تشخیص نفرتپراکنی تو اینترنت، معمولاً روی سکسیسمهایی که رو و واضح هستن تمرکز میکردن و خیلی وقتها همین سکسیسمهای مخفی رو از قلم مینداختن. اما حالا تو یه تحقیق جدید، گروهی از پژوهشگرا یه روش خیلی باحال و هوشمند ساختن تا همین سکسیسمهای ضمنی رو با دقت بیشتری شناسایی کنن.
اسم این روش جدید هست ASCEND یا همون “Adaptive Supervised Contrastive lEarning framework for implicit sexism detectioN”. یعنی در واقع یه چارچوب یادگیری تطبیقی مبتنی بر روش مقایسهای با نظارت برای شناسایی سکسیسم ضمنی. بزن بریم ببینیم این روش چیکار میکنه!
تو این مدل یه نوآوری مهم، یعنی یه جور Threshold-based Contrastive Learning داره. حالا Contrastive Learning یعنی هوش مصنوعی تمرین میکنه که نمونههای مشابه رو توی یه فضای مخصوص (بهش میگن “embedding space” یعنی فضایی که متنها رو به عدد و بردار تبدیل میکنن که کامپیوتر بفهمه) نزدیک هم نگه داره و نمونههای غیرمشابه رو از هم دور کنه. تو این کار، میاد با استفاده از یه چیزی به اسم Cosine Similarity (که یعنی میزان شباهت دو بردار و خروجیش یه عدد بین ۱ و منفی یکه)، دوتا متن رو میسنجه و اگه شباهتشون از یه حد مشخص بیشتر بود، اینا رو دوتا نمونه مثبت در نظر میگیره.
اینجا اون حد مشخص یا Threshold (یعنی مرزی که خود مدل یاد میگیره چقد باشه) باعث میشه فقط نمونههایی که واقعاً شبیه هم هستن، کنار هم قرار داده بشن و بقیه از هم جدا بمونن. این طوری فضای یادگیری خیلی تمیزتر و بدون سروصدا میشه و مدل میتونه همون پیامهای ضمنی رو بهتر و دقیقتر تشخیص بده و از بروز خطای مثبت یا منفی جلوگیری کنه (یعنی کمتر پیش میاد که یه پیام بیگناه رو اشتباهی سکسیست تشخیص بده یا برعکس).
حالا این مدل فقط به همین بسنده نمیکنه. برای اینکه واقعاً عمق متن رو بفهمه، از یه ماژول ورد-اتنشن استفاده کرده. Word-level Attention یعنی مدل حواسش رو به تکتک کلمات داره و میتونه بفهمه هر کلمه چقدر تو جمله مهمه. تازه کلی فیچر دیگه هم به مدل میدن، مثل تحلیل احساسات (Sentiment analysis یعنی مدل بفهمه منظور نویسنده مثبته یا منفیه)، عواطف (Emotion detection یعنی تهِ حس جمله رو دربیاره) و حتی ضریب توکسیک بودن (Toxicity یعنی مدل تشخیص بده جمله چقدر سمی و آزاردهنده است).
در مرحله آخر، مدل از دو نوع تابع هزینه برای آموزش استفاده کرده: یکی Contrastive Loss همینی بود که بالا گفتم و یکی هم Cross-Entropy Loss که یه روش آموزش خیلی مرسوم واسه مسائل دستهبندی یا Classification به حساب میاد (یعنی مدل یاد میگیره هر جمله باید تو کدوم گروه بره: سکسیسم نهفته یا خیر).
برای اینکه ببینن مدلشون واقعاً جواب میده یا نه، اومدن اونو روی دو دیتاست مطرح امتحان کردن: EXIST2021 و MLSC. دیتاست یعنی مجموعه بزرگی از داده و متن که معمولا برای آموزش و تست هوش مصنوعی استفاده میشه. نتایج واقعاً جالب بود! مدل ASCEND تونست نسبت به همه روشهای قبلی حسابی بهتر عمل کنه و تو سه وظیفه مختلف به ترتیب 9.86٪ ، 29.63٪ و حتی 32.51٪ میانگین بهبود روی امتیاز “Macro F1” داشت. حالا Macro F1 یه امتیازه که نشون میده مدل چقدر تو کار تشخیص سکسیسم مخفی خوب و دقیق عمل میکنه (هرچی درصد بالاتر، بهتر).
جمعبندی اینکه الان با این رویکرد هوشمندانه دیگه لازم نیست نگران باشیم پیامهایی که ظاهرشون بیخطره ولی یواشکی حامل سکسیسم هستن، از زیر دستمون در برن. مدل ASCEND با دقت و هوشمندی خاص خودش این پیامها رو شکار میکنه و میتونه کمک کنه که فضای شبکههای اجتماعی سالمتر و کم تبعیضتر بشه. خلاصه که آینده هوش مصنوعی حسابی قراره اینجور جاها به کارمون بیاد!
منبع: +