MeetSafe: یه روش خفن برای مقابله با حمله‌های ناشناخته به شبکه‌های عصبی!

تا حالا شده درباره شبکه‌های عصبی پیچیده‌ای مثل CNNها شنیده باشی؟ همینایی که تقریباً هر چیزی که مربوط به تشخیص تصویر باشه رو دارن کنترل می‌کنن! مثلاً وقتی گوشیت چهره رو تو عکس‌ها میشناسه، یا وقتی ماشین خودران داره جاده رو می‌بینه، اغلبش به خاطر همین شبکه‌های کانولوشنی یا همون CNNها هست. حالا یه مشکل اساسی با این مدل‌ها اینه که میشه خیلی راحت با حمله‌های «Adversarial» گولشون زد؛ یعنی آدما یه سر و شکل جعلی به اطلاعات ورودی میدن و مدل کلی قاطی می‌کنه و اشتباه می‌افته.

حالا، بریم سراغ داستان اصلی: محقق‌ها دارن میگن این حمله‌ها مخصوصاً تو حالت white-box واقعاً دردسر میشن. White-box Attack یعنی حمله‌کننده همه اطلاعات مدل رو، حتی جزئیات دقیقش رو هم بلده و بر اساس اون یه تغییر کوچیک روی داده اصلی میده که هیچکس متوجهش نمیشه ولی مدل رو گیج می‌کنه! اکثر روش‌های دفاعی هم تو این شرایط خیلی موفق نبودن چون هم کشف کردن چنین نمونه‌هایی سخت‌تره و هم حجم اطلاعات مدل‌ها خیلی بالاست و سرعت تشخیصشون پایین میاد.

ولی مطالعه‌ای که داریم درباره‌ش صحبت می‌کنیم، یه سیستم جدید به اسم MeetSafe معرفی کرده که قول داده خیلی قوی‌تر و سریع‌تر با این حمله‌های عجیب‌غریب مقابله کنه! روشی که MeetSafe استفاده کرده اینه که همه ویژگی‌های مدل رو بررسی نمی‌کنه، بلکه فقط سراغ همون ویژگی‌هایی میره که مهم‌تر هستن و به احتمال زیاد نشون میدن خروجی مدل دستکاری شده. این ویژگی‌ها بهشون میگن Hidden Features؛ یعنی اطلاعاتی که وسط کار مدل و قبل از دریافت خروجی نهایی تو مغز شبکه اتفاق می‌افته و همیشه به چشم نمیاد.

توی این تحقیق یه نکته جالب دیده شده: یعنی اگر Z-scoreها رو بین داده‌های واقعی و همون داده‌هایی که تحت حمله قرار گرفتن (اون AEها، یعنی Adversarial Exampleها – همون نمونه‌های جفنگ که مدل رو گول می‌زنن) مقایسه کنیم، تو بعضی ویژگی‌ها تفاوت خیلی واضح میشه. همین شد که تصمیم گرفتن به‌جای تمرکز روی همه اطلاعات، دوتا تابع سودمند (Utility Functions) برای انتخاب بهترین و حساس‌ترین ویژگی‌ها نسبت به این نمونه‌ها بسازن.

برای اینکه بررسی این ویژگی‌های مهم دقیق‌تر انجام بشه و کمتر درگیر اطلاعات بی‌خود و نویز بشن، از چندتا تکنیک مهندسی ویژگی (Feature Engineering) استفاده کردن:

Local Outlier Factor (LOF): یه روش برای اینکه بفهمیم هر داده چقدر نسبت به همسایه‌هاش غیرمعمول هست.
Feature Squeezing: یعنی فشرده‌سازی ویژگی‌ها تا اطلاعات تکراری یا اضافی کمتر بشه و کارآیی بالاتر بره.
Whitening: اینم برای عادی‌سازی و نرمال‌تر کردن ویژگی‌هاست که همه‌چی تو یه سطح مشابه بیاد.

اما چالش اینجاست: وقتی تعداد ویژگی‌ها میره بالا، «نفرین ابعاد» پیش میاد! Curse of Dimensionality یعنی هرچی اطلاعات بیشتر و پیچیده‌تر بشه، تحلیل و تشخیص سخت‌تر میشه و آمارها کلی سروصدا می‌کنن. اینجا هست که یه روش جدید به اسم Local Reachability Density (LRD) اضافه کردن. LRD خیلی باحاله چون هر بار میاد تصادفی یه دسته از ویژگی‌های بهینه‌شده انتخاب می‌کنه و چگالی همسایه‌هاشونو با هم مقایسه می‌کنه تا بفهمه چیا غیرعادی هستن.

در نهایت، MeetSafe یه مدل دیگه هم روش سوار می‌کنه به اسم Gaussian Mixture Model یا همون GMM (یه مدل آماری باحال که می‌تونه دسته‌بندی کنه کدوم داده‌ها عادی‌ان و کدوما غیرعادی)، تا اگه یه ویژگی خودشو جدا از بقیه نشون داد، سریع بفهمه این نمونه جعلیه یا همون Adversarial Example هست.

نتایج تجربی هم خیلی دلگرم‌کننده بوده: MeetSafe تونسته توی تشخیص حمله‌های adaptive (یعنی حمله‌هایی که مدام خودشونو به مدل وفق میدن) تا ۷۴٪ موفق باشه؛ توی نمونه‌های کلاسیک تا ۹۶٪ و حتی توی همون white-box attackهای بدقلق هم ۷۹٪ موفقیت داشته! جالب‌تر اینکه سرعتش هم خیلی بالاتره، حداقل دو برابر سریع‌تر از اکثر روش‌های مشابه.

در کل، MeetSafe یه روشیه که هم دقیق‌تر هم سریع‌تر می‌تونه جلوی گول خوردن شبکه‌های عصبی رو بگیره و باعث میشه سیستم‌های بینایی ماشین تو آینده امن‌تر و باهوش‌تر بمونن!

منبع: +