تا حالا شده درباره شبکههای عصبی پیچیدهای مثل CNNها شنیده باشی؟ همینایی که تقریباً هر چیزی که مربوط به تشخیص تصویر باشه رو دارن کنترل میکنن! مثلاً وقتی گوشیت چهره رو تو عکسها میشناسه، یا وقتی ماشین خودران داره جاده رو میبینه، اغلبش به خاطر همین شبکههای کانولوشنی یا همون CNNها هست. حالا یه مشکل اساسی با این مدلها اینه که میشه خیلی راحت با حملههای «Adversarial» گولشون زد؛ یعنی آدما یه سر و شکل جعلی به اطلاعات ورودی میدن و مدل کلی قاطی میکنه و اشتباه میافته.
حالا، بریم سراغ داستان اصلی: محققها دارن میگن این حملهها مخصوصاً تو حالت white-box واقعاً دردسر میشن. White-box Attack یعنی حملهکننده همه اطلاعات مدل رو، حتی جزئیات دقیقش رو هم بلده و بر اساس اون یه تغییر کوچیک روی داده اصلی میده که هیچکس متوجهش نمیشه ولی مدل رو گیج میکنه! اکثر روشهای دفاعی هم تو این شرایط خیلی موفق نبودن چون هم کشف کردن چنین نمونههایی سختتره و هم حجم اطلاعات مدلها خیلی بالاست و سرعت تشخیصشون پایین میاد.
ولی مطالعهای که داریم دربارهش صحبت میکنیم، یه سیستم جدید به اسم MeetSafe معرفی کرده که قول داده خیلی قویتر و سریعتر با این حملههای عجیبغریب مقابله کنه! روشی که MeetSafe استفاده کرده اینه که همه ویژگیهای مدل رو بررسی نمیکنه، بلکه فقط سراغ همون ویژگیهایی میره که مهمتر هستن و به احتمال زیاد نشون میدن خروجی مدل دستکاری شده. این ویژگیها بهشون میگن Hidden Features؛ یعنی اطلاعاتی که وسط کار مدل و قبل از دریافت خروجی نهایی تو مغز شبکه اتفاق میافته و همیشه به چشم نمیاد.
توی این تحقیق یه نکته جالب دیده شده: یعنی اگر Z-scoreها رو بین دادههای واقعی و همون دادههایی که تحت حمله قرار گرفتن (اون AEها، یعنی Adversarial Exampleها – همون نمونههای جفنگ که مدل رو گول میزنن) مقایسه کنیم، تو بعضی ویژگیها تفاوت خیلی واضح میشه. همین شد که تصمیم گرفتن بهجای تمرکز روی همه اطلاعات، دوتا تابع سودمند (Utility Functions) برای انتخاب بهترین و حساسترین ویژگیها نسبت به این نمونهها بسازن.
برای اینکه بررسی این ویژگیهای مهم دقیقتر انجام بشه و کمتر درگیر اطلاعات بیخود و نویز بشن، از چندتا تکنیک مهندسی ویژگی (Feature Engineering) استفاده کردن:
- Local Outlier Factor (LOF): یه روش برای اینکه بفهمیم هر داده چقدر نسبت به همسایههاش غیرمعمول هست.
- Feature Squeezing: یعنی فشردهسازی ویژگیها تا اطلاعات تکراری یا اضافی کمتر بشه و کارآیی بالاتر بره.
- Whitening: اینم برای عادیسازی و نرمالتر کردن ویژگیهاست که همهچی تو یه سطح مشابه بیاد.
اما چالش اینجاست: وقتی تعداد ویژگیها میره بالا، «نفرین ابعاد» پیش میاد! Curse of Dimensionality یعنی هرچی اطلاعات بیشتر و پیچیدهتر بشه، تحلیل و تشخیص سختتر میشه و آمارها کلی سروصدا میکنن. اینجا هست که یه روش جدید به اسم Local Reachability Density (LRD) اضافه کردن. LRD خیلی باحاله چون هر بار میاد تصادفی یه دسته از ویژگیهای بهینهشده انتخاب میکنه و چگالی همسایههاشونو با هم مقایسه میکنه تا بفهمه چیا غیرعادی هستن.
در نهایت، MeetSafe یه مدل دیگه هم روش سوار میکنه به اسم Gaussian Mixture Model یا همون GMM (یه مدل آماری باحال که میتونه دستهبندی کنه کدوم دادهها عادیان و کدوما غیرعادی)، تا اگه یه ویژگی خودشو جدا از بقیه نشون داد، سریع بفهمه این نمونه جعلیه یا همون Adversarial Example هست.
نتایج تجربی هم خیلی دلگرمکننده بوده: MeetSafe تونسته توی تشخیص حملههای adaptive (یعنی حملههایی که مدام خودشونو به مدل وفق میدن) تا ۷۴٪ موفق باشه؛ توی نمونههای کلاسیک تا ۹۶٪ و حتی توی همون white-box attackهای بدقلق هم ۷۹٪ موفقیت داشته! جالبتر اینکه سرعتش هم خیلی بالاتره، حداقل دو برابر سریعتر از اکثر روشهای مشابه.
در کل، MeetSafe یه روشیه که هم دقیقتر هم سریعتر میتونه جلوی گول خوردن شبکههای عصبی رو بگیره و باعث میشه سیستمهای بینایی ماشین تو آینده امنتر و باهوشتر بمونن!
منبع: +