بیا یه موضوع باحال رو با هم بررسی کنیم که این روزا دانشمندای هوش مصنوعی خیلی درگیرشن! تا حالا از چتباتهایی که هوش مصنوعی دارن مثل ChatGPT یا بقیه مدلهای زبانی بزرگ (Large Language Models یا همون LLMها) استفاده کردی؟ این مدلها تو زمینههایی مثل سلامت، آموزش و حتی امنیت حسابی کاربرد دارن و حالا دیگه همه جا ردپاشون هست. اما در کنارش، چون خیلی باز و دسترسپذیر شدن، خطرهای امنیتیشون هم زیاد شده.
یکی از خطرای جدی که جدیداً روش کار میکنن، حمله توی فضای embedding هست. حالا embedding چیه؟ یه توضیح کوتاه: هوش مصنوعی وقتی میخواد متنو بفهمه، هر کلمه یا جمله رو تبدیل میکنه به یه سری عدد (یه جور نقطه تو یه فضای چندبعدی)؛ به این میگن embedding. یعنی اطلاعاتو میبره تو یه دنیای رمزگونه از اعداد که خودش میفهمه. حالا اگه یه نفر زرنگ باشه و بتونه با دستکاری این embeddingها، معنی جملاتو طوری عوض کنه که مدل متوجه خطرناکی یا توهینآمیز بودنشون نشه (یعنی فیلترهای امنیتیشو دور بزنه)، عملاً میتونه مدل رو باهکش کنه که جوابهای ناسالم بده!
پژوهشای قبلی بیشتر سر این بودن که چطوری میشه کلی مدل رو با دستکاری کلی و عمومی دور زد (بهش میگن universal perturbation – یعنی دستکاری عمومی). ولی هنوز دقیق نمیدونستیم ساز و کار دفاعها تو سطح همین embedding چطوریه و مخصوصاً روشهایی که هدفمند روی بعضی ابعاد خاص embedding عمل میکنن کمتر بررسی شدن.
حالا تو این مقاله، پای یه ابزار جدید وسط اومده: ETTA – مخفف Embedding Transformation Toxicity Attenuation. خب این یعنی چی؟ یعنی «تضعیف سمّیت (توکسیک بودن) از طریق تغییر (ترنسفورم) فضای embedding». در واقع ETTA یه چارچوب باحاله که میاد ابعاد حساسی تو فضای embedding رو شناسایی میکنه، اونایی که به محتوای خطرناک حساسن، و با یه سری تبدیلات خطی (linear transformations یعنی فقط ضرب و جمع معادلهای ساده) این خصیصههای حساس رو کمرنگ میکنه!
خوبیش اینه که این روش مدل رو مجبور نمیکنه دوباره train یا fine-tune کنن (یعنی مدل رو از نو آموزش بدن). حتی لازم نیست به دیتای اصلی مدل دسترسی داشته باشین! فقط ورودی رو زیرپوستی تغییر میده. جالب اینجاست که موقع آزمایش روی ۵ تا از مدلهای متنباز معروف با یه بنچمارک مخصوص تست حمله (AdvBench)، ETTA تونسته به طور متوسط ۸۸٫۶۱ درصد حمله موفق داشته باشه، یعنی خیلی بهتر از بهترین روشهای قبلی – دقیقاً ۱۱٫۳۴ درصد بیشتر!
حتی وقتی سراغ مدلهایی رفتن که حسابی روشون کار شده تا امنتر باشن (بهشون میگن Safety-enhanced یا Instruction-tuned)، باز هم ETTA موفق شد ۷۷٫۳۹ درصد حمله موفق انجام بده! یعنی حتی اگه مدل رو با آموزش بیشتر امن کنی، باز ETTA از ۷۰٪ مواقع دورش میزنه.
خلاصه این قضیه نشون میده که روشهای فعلی برای امنیت مدلها، مخصوصاً تو سطح embedding، هنوز حسابی آسیبپذیرن و باید دنبال دفاعهایی باشیم که دقیقاً حواسشون به فضای embedding باشه (یعنی embedding-aware defense). و اگه مدلها قراره تو حوزههای حساس مثل سلامت و آموزش بیشتر استفاده بشن، باید واقعا جلو این مدل دور زدنها رو بگیریم وگرنه ممکنه یه سری افراد فرصتطلب ازش سواستفاده کنن!
در آخر، ETTA یه جور زنگ خطره برای کل صنعت هوش مصنوعی که: «حواستون باشه فقط به آموزش سطحی و فیلترهای ظاهری دل خوش نکنین، مغز مدل رو زیر ذرهبین دقیق بذارین!» ✌️
منبع: +