یه روش خفن برای دور زدن فیلترهای امنیتی مدل‌های هوش مصنوعی: داستان ETTA!

بیا یه موضوع باحال رو با هم بررسی کنیم که این روزا دانشمندای هوش مصنوعی خیلی درگیرشن! تا حالا از چت‌بات‌هایی که هوش مصنوعی دارن مثل ChatGPT یا بقیه مدل‌های زبانی بزرگ (Large Language Models یا همون LLMها) استفاده کردی؟ این مدل‌ها تو زمینه‌هایی مثل سلامت، آموزش و حتی امنیت حسابی کاربرد دارن و حالا دیگه همه جا ردپاشون هست. اما در کنارش، چون خیلی باز و دسترس‌پذیر شدن، خطرهای امنیتیشون هم زیاد شده.

یکی از خطرای جدی که جدیداً روش کار می‌کنن، حمله توی فضای embedding هست. حالا embedding چیه؟ یه توضیح کوتاه: هوش مصنوعی وقتی می‌خواد متنو بفهمه، هر کلمه یا جمله رو تبدیل می‌کنه به یه سری عدد (یه جور نقطه تو یه فضای چندبعدی)؛ به این میگن embedding. یعنی اطلاعاتو می‌بره تو یه دنیای رمزگونه از اعداد که خودش می‌فهمه. حالا اگه یه نفر زرنگ باشه و بتونه با دستکاری این embeddingها، معنی جملاتو طوری عوض کنه که مدل متوجه خطرناکی یا توهین‌آمیز بودنشون نشه (یعنی فیلترهای امنیتیشو دور بزنه)، عملاً می‌تونه مدل رو باهکش کنه که جواب‌های ناسالم بده!

پژوهشای قبلی بیشتر سر این بودن که چطوری میشه کلی مدل رو با دستکاری کلی و عمومی دور زد (بهش میگن universal perturbation – یعنی دستکاری عمومی). ولی هنوز دقیق نمی‌دونستیم ساز و کار دفاع‌ها تو سطح همین embedding چطوریه و مخصوصاً روش‌هایی که هدفمند روی بعضی ابعاد خاص embedding عمل می‌کنن کمتر بررسی شدن.

حالا تو این مقاله، پای یه ابزار جدید وسط اومده: ETTA – مخفف Embedding Transformation Toxicity Attenuation. خب این یعنی چی؟ یعنی «تضعیف سمّیت (توکسیک بودن) از طریق تغییر (ترنسفورم) فضای embedding». در واقع ETTA یه چارچوب باحاله که میاد ابعاد حساسی تو فضای embedding رو شناسایی می‌کنه، اونایی که به محتوای خطرناک حساسن، و با یه سری تبدیلات خطی (linear transformations یعنی فقط ضرب و جمع معادله‌ای ساده) این خصیصه‌های حساس رو کمرنگ می‌کنه!

خوبیش اینه که این روش مدل رو مجبور نمی‌کنه دوباره train یا fine-tune کنن (یعنی مدل رو از نو آموزش بدن). حتی لازم نیست به دیتای اصلی مدل دسترسی داشته باشین! فقط ورودی رو زیرپوستی تغییر میده. جالب اینجاست که موقع آزمایش روی ۵ تا از مدل‌های متن‌باز معروف با یه بنچمارک مخصوص تست حمله (AdvBench)، ETTA تونسته به طور متوسط ۸۸٫۶۱ درصد حمله موفق داشته باشه، یعنی خیلی بهتر از بهترین روش‌های قبلی – دقیقاً ۱۱٫۳۴ درصد بیشتر!

حتی وقتی سراغ مدل‌هایی رفتن که حسابی روشون کار شده تا امن‌تر باشن (بهشون میگن Safety-enhanced یا Instruction-tuned)، باز هم ETTA موفق شد ۷۷٫۳۹ درصد حمله موفق انجام بده! یعنی حتی اگه مدل رو با آموزش بیشتر امن کنی، باز ETTA از ۷۰٪ مواقع دورش میزنه.

خلاصه این قضیه نشون میده که روش‌های فعلی برای امنیت مدل‌ها، مخصوصاً تو سطح embedding، هنوز حسابی آسیب‌پذیرن و باید دنبال دفاع‌هایی باشیم که دقیقاً حواسشون به فضای embedding باشه (یعنی embedding-aware defense). و اگه مدل‌ها قراره تو حوزه‌های حساس مثل سلامت و آموزش بیشتر استفاده بشن، باید واقعا جلو این مدل دور زدن‌ها رو بگیریم وگرنه ممکنه یه سری افراد فرصت‌طلب ازش سواستفاده کنن!

در آخر، ETTA یه جور زنگ خطره برای کل صنعت هوش مصنوعی که: «حواستون باشه فقط به آموزش سطحی و فیلترهای ظاهری دل خوش نکنین، مغز مدل رو زیر ذره‌بین دقیق بذارین!» ✌️

منبع: +