داستان جالب شناسایی هوشمند اسپم ایمیل با مدل متا-لرنر: چطور ایمیل‌های مزاحم رو دور بزنیم!

بذارید رو راست باشیم؛ این روزها تقریباً همه‌مون کلی با ایمیل سروکار داریم، چه برای کارهای شخصی چه برای کارای اداری و دانشگاهی. ولی حتما شما هم مثل من همیشه یه مشت ایمیل مزاحم یا همون اسپم توی اینباکستون پیدا می‌کنید که فقط وقت آدم رو می‌گیرن. خب تا الان کلی سیستم برای شناسایی و حذف اسپم ساخته شده ولی هنوزم کلیشون یا کلی چیز رو اشتباهی می‌فرستن تو پوشه اسپم یا برعکس، یه عالمه ایمیل مزاحم رو نمی‌تونن تشخیص بدن و ول می‌شن وسط کارامون.

حالا مقاله‌ای که امروز میخوام براتون بگم، یه راه‌حل واقعاً قوی واسه این مشکل نشون داده. قضیه اینه که یه تیم اومدن از یه روش پیشرفته به اسم “Meta-Learner” یا همون متا-لرنر استفاده کردن. بذار ساده بگم: متا-لرنر یعنی مدلی که از ترکیب چندتا مدل دیگه (مثلاً مدل‌های یادگیری ماشین معمولی و حتی عمیق) میاد نتیجه بهتر و باهوش‌تری می‌سازه. یعنی نه فقط یه مدل، بلکه انگار تیمی از مدل‌ها کنار هم تصمیم می‌گیرن.

تو این تحقیق، بچه‌ها پنج تا مدل یادگیری ماشین سنتی (یعنی همون الگوریتم‌هایی که مثل بچه‌های خوبی یاد می‌گیرن اما خیلی عمیق و پیچیده نیستن) رو با پنج تا مدل یادگیری عمیق (Deep Learning) که خودشون واسه تحلیل داده‌ها خیلی تو کارن، مقایسه کردن. بعدش اومدن روی دو دیتاست مهم آزمایش زدن: یکی “Enron-Spam” (یه دیتابیس معروف از ایمیل‌های واقعی شرکت Enron هست که حسابی اسپم داره) و اون یکی هم “TREC 2007” (یه دیتابیس معتبر دیگه واسه مسابقات شناسایی اسپم). برای هر کدوم از این مدل‌ها کلی روش مختلف برای تبدیل کلمات به عدد (که بهش می‌گن “وکتورایز کردن” مثل Word Embeddings) تست شد تا ببینن بهترین نتیجه رو کی می‌گیره.

نتایج؟ این متا-لرنر واقعاً ترکوند! روی دیتاست ترکیبی (یعنی هر دو دیتاست با هم)، دقت یا همون accuracy شد ۰.۹۹۰۵! واسه اینکه بدونی یعنی چی، این یعنی تقریباً هیچ ایمیل مزاحمی از دستش در نمی‌ره. تازه مقدار AUC (که یه معیار خیلی مهم در علم داده است و نشون می‌ده مدل چقدر قوی می‌تونه بین اسپم و غیر اسپم فرق بذاره) شد ۰.۹۹۹۱! AUC یعنی Area Under Curve—یه چیزی که هرچی بالاتر باشه مدل قوی‌تره.

یه نکته دیگه هم هست که مدل متا-لرنر اونا، نه تنها بقیه مدل‌های مطرح رو شکست داده، بلکه تو مقالات و کارهای جدیدی که قبل از این بوده هم، از تنها مدل متا-لرنر قبلی تو شناسایی اسپم بهتر جواب داده. یعنی هم دقت بالاتر داره، هم می‌تونه روی دیتای خیلی بیشتری کار کنه، هم اینکه سخت‌افزار قوی نمی‌خواد و سریع اجرا میشه.

تازه، بچه‌ها این مدل رو روی یه دیتاست واقعی که تا حالا مدل ندیده بود (بهش می‌گن “zero-shot setting”، یعنی تست روی داده‌ی کاملاً جدید) هم امتحان کردن. باز هم مدل سربلند بیرون اومد: حساسیت اسپم (یعنی چند درصد ایمیل مزاحم رو درست می‌گیره) شد ۰.۸۹۷۰ و دوباره AUC بالا (۰.۷۶۰۵) رو ثبت کرد. این یعنی حتی توی شرایط واقعی هم مدل خوب عمل می‌کنه.

در کل، این مدل متا-لرنر نشون داده با ترکیب هوشمند قدرت مدل‌های مختلف، فیلترهای اسپم خیلی مقاوم‌تر و باهوش‌تری ساخته میشن که براحتی فریب تاکتیک‌های جدید ایمیل‌های مزاحم رو نمی‌خورن. خلاصه، هوش مصنوعی داره کم‌کم ایمیل رو برای ما قابل تحمل‌تر می‌کنه و آینده‌ی بدون “اسپم” نزدیکه! 😉

منبع: +