احتمالاً این روزها اسم مدلهای ترنسفورمر یا Transformer Models زیاد به گوشت خورده، همون مدلهایی که پایه و اساس خیلی از سیستمهای هوش مصنوعی مدرن هستن، مثل ChatGPT یا Google Translate. خب، همیشه دانشمندا دنبال این بودن که ببینن چجوری میشه جلوی حملات عجیب و غریب متنی رو بگیرن. منظور از Adversarial Text Attacks یعنی وقتی یه نفر یا یه الگوریتم، متن رو جوری دستکاری میکنه که هوش مصنوعی نتونه درست کار کنه یا حتی خراب بشه!
تا حالا هم بیشتر روشهایی که واسه مقابله با این حملات استفاده میشد، کلی مشکل داشتن؛ یا فقط برای یک نوع حمله خاص جواب میدادن، یا اینکه باید مدلهای حجیمی مثل همین ترنسفورمرها رو دوباره آموزش میدادن که واقعاً وقتگیر و هزینهبره.
حالا این مقاله که داریم راجع بهش حرف میزنیم، اومده یک ایده باحال و جدید معرفی کرده به اسم «پایداری نمایش» یا Representation Stability (RS). این یه جور چارچوب برای شناسایی حملات متنی به صورت مدل-محوره، یعنی مدل خاصی نمیخواد و واسه هر مدلی کار میده!
حالا مکانیسمش چیه؟ اولش میاد با استفاده از یک سری روشهای هوشمندانه (به اینا میگن Importance Heuristics)، کلمات مهم توی متن رو رتبهبندی میکنه. یعنی مثلاً میفهمه تو جمله «سارا به مدرسه رفت»، کدوم کلمه اهمیت بیشتری داره.
بعدش یه بازی جالب راه میندازه: اون کلمات خیلی مهم رو یکییکی ماسک میکنه (ماسک کردن یعنی مثل اینکه کلمه رو حذف یا پنهان میکنه) و چک میکنه مدل چقدر نسبت به حذف اینها حساسه. اگر مدل یه دفعه واکنش عجیب نشون بده، خیلی احتمال داره متن، مورد یه جور دستکاری مخرب قرار گرفته باشه!
واسه پردازش همه این اطلاعات، از یه مدل BiLSTM کمک میگیره (BiLSTM یعنی نوعی شبکه عصبی که میتونه اطلاعات رو از هر دو طرف جمله بخونه و بهتر بفهمه داستان چیه).
تو آزمایشهایی که انجام دادن، دیدن که کلماتی که به صورت مخرب دستکاری شدن، خیلی بیشتر از کلمات طبیعی نسبت به ماسک شدن حساسن. یعنی مدل وقتی این کلمات دستکاری شده رو ماسک میکنه، نمایشهای داخلی (Embedding) مدل دچار تغییر شدید میشن.
جالبه بدونی این سیستم رو روی سه تا دیتاست مختلف، سه نوع حمله متنی، و دو مدل قربانی تست کردن و تونستن بیشتر از ۸۸ درصد موارد این حملات رو درست تشخیص بدن! تازه هزینه محاسباتیش هم نسبت به خیلی از روشهای فوق حرفهای دیگه کمتره.
یه نکته خفن دیگه اینکه برای سنجش کیفیت شناساییشون از یه معیار به اسم NDCG استفاده کردن (NDCG یعنی Normalized Discounted Cumulative Gain که در اصل یه عددیه برای اینکه بفهمیم چقدر رتبهبندی ما خوب بوده). نتیجه نشون داده که روشهای مبتنی بر گرادیان یا Gradient-based ranking (یعنی اونایی که برای تشخیص اهمیت کلمات از شیب تغییرات مدل استفاده میکنن) از بقیه (مثل روشهای مبتنی بر توجه یا random selection که همون انتخاب تصادفیه) خیلی بهتر عمل کردن.
از همه باحالتر، این روش RS واقعاً انعطافپذیره و بدون اینکه لازم باشه برای دیتاست یا مدل جدید دوباره آموزش ببینیم، به همون خوبی کار میکنه! پس میتونه یه راه حل عملی و خوشدست واسه شناسایی انواع حملات متنی باشه.
جمعبندی: اگه پای مدلهای بزرگ ترنسفورمر وسط باشه و یه نفر بخواد با متنهای عجیب و دستکاری شده گولشون بزنه، این سیستم به خوبی میتونه متوجه بشه و اصلاً خودش رو به آب و آتیش نزنید که دوباره کل مدل رو از اول بسازید! واقعاً ایده هیجانانگیز و کاربردیه.
منبع: +