داستان پایدار موندن «مدل‌های ترنسفورمر» جلوی حملات متنی عجیب و غریب!

احتمالاً این روزها اسم مدل‌های ترنسفورمر یا Transformer Models زیاد به گوشت خورده، همون مدل‌هایی که پایه و اساس خیلی از سیستم‌های هوش مصنوعی مدرن هستن، مثل ChatGPT یا Google Translate. خب، همیشه دانشمندا دنبال این بودن که ببینن چجوری میشه جلوی حملات عجیب و غریب متنی رو بگیرن. منظور از Adversarial Text Attacks یعنی وقتی یه نفر یا یه الگوریتم، متن رو جوری دستکاری می‌کنه که هوش مصنوعی نتونه درست کار کنه یا حتی خراب بشه!

تا حالا هم بیشتر روش‌هایی که واسه مقابله با این حملات استفاده می‌شد، کلی مشکل داشتن؛ یا فقط برای یک نوع حمله خاص جواب می‌دادن، یا اینکه باید مدل‌های حجیمی مثل همین ترنسفورمرها رو دوباره آموزش می‌دادن که واقعاً وقت‌گیر و هزینه‌بره.

حالا این مقاله که داریم راجع بهش حرف می‌زنیم، اومده یک ایده باحال و جدید معرفی کرده به اسم «پایداری نمایش» یا Representation Stability (RS). این یه جور چارچوب برای شناسایی حملات متنی به صورت مدل-محوره، یعنی مدل خاصی نمی‌خواد و واسه هر مدلی کار می‌ده!

حالا مکانیسمش چیه؟ اولش میاد با استفاده از یک سری روش‌های هوشمندانه (به اینا می‌گن Importance Heuristics)، کلمات مهم توی متن رو رتبه‌بندی می‌کنه. یعنی مثلاً می‌فهمه تو جمله «سارا به مدرسه رفت»، کدوم کلمه اهمیت بیشتری داره.

بعدش یه بازی جالب راه می‌ندازه: اون کلمات خیلی مهم رو یکی‌یکی ماسک می‌کنه (ماسک کردن یعنی مثل اینکه کلمه رو حذف یا پنهان می‌کنه) و چک می‌کنه مدل چقدر نسبت به حذف این‌ها حساسه. اگر مدل یه دفعه واکنش عجیب نشون بده، خیلی احتمال داره متن، مورد یه جور دستکاری مخرب قرار گرفته باشه!

واسه پردازش همه این اطلاعات، از یه مدل BiLSTM کمک می‌گیره (BiLSTM یعنی نوعی شبکه عصبی که می‌تونه اطلاعات رو از هر دو طرف جمله بخونه و بهتر بفهمه داستان چیه).

تو آزمایش‌هایی که انجام دادن، دیدن که کلماتی که به صورت مخرب دستکاری شدن، خیلی بیشتر از کلمات طبیعی نسبت به ماسک شدن حساسن. یعنی مدل وقتی این کلمات دستکاری شده رو ماسک می‌کنه، نمایش‌های داخلی (Embedding) مدل دچار تغییر شدید می‌شن.

جالبه بدونی این سیستم رو روی سه تا دیتاست مختلف، سه نوع حمله متنی، و دو مدل قربانی تست کردن و تونستن بیشتر از ۸۸ درصد موارد این حملات رو درست تشخیص بدن! تازه هزینه محاسباتیش هم نسبت به خیلی از روش‌های فوق حرفه‌ای دیگه کمتره.

یه نکته خفن دیگه اینکه برای سنجش کیفیت شناساییشون از یه معیار به اسم NDCG استفاده کردن (NDCG یعنی Normalized Discounted Cumulative Gain که در اصل یه عددیه برای اینکه بفهمیم چقدر رتبه‌بندی ما خوب بوده). نتیجه نشون داده که روش‌های مبتنی بر گرادیان یا Gradient-based ranking (یعنی اونایی که برای تشخیص اهمیت کلمات از شیب تغییرات مدل استفاده می‌کنن) از بقیه (مثل روش‌های مبتنی بر توجه یا random selection که همون انتخاب تصادفیه) خیلی بهتر عمل کردن.

از همه باحال‌تر، این روش RS واقعاً انعطاف‌پذیره و بدون اینکه لازم باشه برای دیتاست یا مدل جدید دوباره آموزش ببینیم، به همون خوبی کار می‌کنه! پس می‌تونه یه راه حل عملی و خوش‌دست واسه شناسایی انواع حملات متنی باشه.

جمع‌بندی: اگه پای مدل‌های بزرگ ترنسفورمر وسط باشه و یه نفر بخواد با متن‌های عجیب و دستکاری شده گولشون بزنه، این سیستم به خوبی می‌تونه متوجه بشه و اصلاً خودش رو به آب و آتیش نزنید که دوباره کل مدل رو از اول بسازید! واقعاً ایده هیجان‌انگیز و کاربردیه.

منبع: +