ترفند خفن دفاعی با بازسازی متنوع: دیگه حملات فریبکارانه بی‌اثر میشن!

خب بیا یه موضوع جالب از دنیای هوش مصنوعی رو با هم باز کنیم! حتما شنیدی که مدل‌های یادگیری عمیق (همون Deep Learning، یعنی مدل‌هایی که با الهام از مغز خیلی کارای پیچیده مثل تشخیص تصویر انجام می‌دن) خیلی وقتا در برابر حملاتی به اسم «نمونه‌های آسیب‌زننده» یا همون Adversarial Examples کم میارن. این حملات، تغییرات خیلی کوچیک و نامحسوسی به ورودی می‌زنن که مدل رو قشنگ گول می‌زنن!

حالا این ماجرا برای سرویس‌هایی که توی ابعاد بزرگ استفاده میشن (مثلاً سرویس‌های عکس یا تشخیص چهره)، واقعاً دردسرسازه. واسه همین، یه راه‌حل باحالی که برای مقابله با این حملات استفاده می‌کنن به اسم «مدافعین پلاگ‌این» هست. یعنی یه جور ابزار دفاعی که راحت به سرویس اضافه میشه و نیاز نیست از صفر مدل رو عوض کنی. این پلاگ‌این‌ها دو سبک برخورد دارن: اولی بازسازی ورودی (یعنی ورودی رو یجوری دوباره درست و پاکسازی می‌کنن)، دومی هم انجام تغییرات تصادفی روی داده (مثلاً عکس رو چند حالت مختلف بچرخونن یا تغییر بدن).

اما یه مشکل قدیمی این پلاگ‌این‌ها اینه که اکثرشون خیلی متنوع نیستن! یعنی روشی که ورودی رو تغییر می‌دن، خیلی محدود و تکراریه. این باعث میشه مهاجما که آدما یا الگوریتمای زرنگی هستن، خودشون رو تطبیق بدن و حملاتشون رو جوری تنظیم کنن که این دفاع‌ها دیگه جواب نده. این رو می‌گن ضعف «تنوع پایین» توی مدل‌های دفاعی سنتی.

اینجا یه راه‌حل جدید معرفی شده به اسم «بازسازی با تنوع تقویت‌شده» یا DeR (Diversity-enhanced Reconstruction). کار این DeR همون دفاع پلاگ‌این هست اما با یه تفاوت اصلی: تنوع خیلی بالاتر توی بازسازی ورودی‌ها که دیگه دست هکرها رو می‌بنده!

توی این روش، یه مدل بازساز جدید ساختن که پایه‌اش U-Net هست (U-Net یه مدل معروف توی بینایی ماشین که برای بازسازی یا بخش‌بندی تصویر استفاده میشه). ولی نکته خفن اینه که به این U-Net، مولفه‌های فرکانسی هم اضافه کردن. حالا فرکانس اینجا یعنی از ورودی، اطلاعاتی توی دامنه‌های مختلف (مثلاً بخش‌های ریز و درشت تصویر) رو جدا بررسی می‌کنن. با این کار، بازسازی‌ها حالت‌های متنوع و خلاقانه‌تری پیدا می‌کنن و دیگه فقط دنبال حفظ ویژگی‌های ثابت نیستن.

برای اینکه این مدل DeR واقعاً بتونه هم ورودی رو بازسازی کنه و هم تنوع داشته باشه، یه هدف یا Loss جدید براش تعریف کردن به اسم “DeR Loss”. این Loss جوری طراحی شده که از یه طرف بازسازی ورودی رو خوب انجام بده و از طرف دیگه تا می‌تونه تنوع توی خروجی‌ها داشته باشه. نتیجه‌اش چی میشه؟ وقتی مدل آموزش دید، می‌تونه کلی حالت مختلف از یه ورودی رو بازسازی کنه؛ همین باعث میشه حملاتی که هوش مصنوعی رو فریب میدن، دیگه الکی الگو خودشون رو به دفاع تطبیق ندن!

تیم تحقیقاتی این روش رو حسابی امتحان کردن: روی سه دیتاست مختلف و با چهار مدل طبقه‌بندی‌کننده جدا امتحانش کردن و اونم توی شرایٔط سختِ حمله. نتیجه‌ها نشون داد که DeR واقعا از بقیه راهکارهای پلاگ‌این دفاعی موجود قوی‌تره و جالب‌تر اینکه سرعتش اونقدر هست که بشه توی عملیات‌های واقعی و بی‌درنگ (یعنی زمان واقعی یا همون real-time) استفاده‌اش کرد.

در آخر خلاصه‌اش اینکه: اگه آینده پر از مدل‌های هوش مصنوعی و Deep Learning و کلی حملهٔ فریبکارانه هست، بهتره رفت سراغ راهکارهای متنوع مثل همین DeR که با هوشمندی، مهاجما رو حسابی غافلگیر می‌کنه!

منبع: +