AEGIS: یه چارچوب هوشمند و اتوماتیک واسه مبارزه با حملات پرامپت تو مدل‌های زبانی!

Fall Back

حتماً تازگیا کلی راجع به هوش مصنوعی و مدل‌های زبانی بزرگ (LLMها) شنیدین، مثل ChatGPT، که میتونن متن بنویسن، جواب بدن یا حتی داستان بگن. این مدل‌ها اینقدر قوی شدن که خیلی‌ها ازشون تو اپلیکیشن‌ها و سرویس‌های جدی استفاده می‌کنن. اما مشکل اینجاست که یکی از چالش‌های اصلی این مدل‌ها، موضوع حمله‌های Prompt Injection هست!

خب، حالا Prompt Injection چیه؟ به زبان ساده یعنی کسی یه ورودی (پرامپت) به مدل بده که باعث بشه مدل کارهایی انجام بده که قرار نبوده، مثلاً اطلاعات غلط بده یا دستورات غیرمجاز اجرا کنه. اینجوری عملاً میشه مدل رو هک کرد یا گول زد! برای جلوگیری هم روش‌هایی مثل تشخیص بر اساس پرامپت هست که سبکه و قابل فهمه، ولی چون باید دستی پرامپت‌هاش رو تنظیم کنی، همیشه خوب جواب نمی‌ده و وقت‌گیر هم هست.

حالا اینجا سیستم جدیدی به اسم AEGIS به کمک اومده! بذارین داستانش رو راحت توضیح بدم: این سیستم یه چارچوب کاملاً خودکار و باهوشه برای دفاع در برابر حملات پرامپت. یعنی هکرها و مدافع‌ها رو میذاره توی یه رقابت باهم تا هر دو طرف بتونن خودشون رو باهوش‌تر کنن و تکنیک‌هاشون رو آپدیت کنن.

توی AEGIS، هم حمله‌کننده‌ها (کسانی که دنبال آسیب‌زدن به مدل هستن) و هم مدافع‌ها (کسایی که می‌خوان جلوی این هک‌ها رو بگیرن) با همدیگه، و البته خودکار، پرامپت‌هاشون رو بهینه می‌کنن. این کار با یه چیزی به اسم “بهینه‌سازی گرادیانی متنی” انجام میشه – یعنی یه جور روش هوشمند و مرحله‌ای برای پیدا کردن بهترین وردی و دفاعیه، کاملاً به کمک خود مدل زبان و یه حلقه بازخورد!

AEGIS با استفاده از این رویکرد تونسته تو یه آزمایش واقعی (روی دیتاست مربوط به نمره‌دهی به وظایف با حمله پرامپت!) عالی عمل کنه. مثلاً موفقیت حمله (ASR) تا عدد ۱٫۰ بالا رفته (یه پیشرفت خیلی خفن نسبت به روش‌های قبلی – دقیقاً ۰٫۲۶ بهتر). از اون طرف، شناسایی موفق حمله (True Positive Rate یا TPR) هم از همه قبلیا بهتر شده: به ۰٫۸۴ رسیده که ۰٫۲۳ بهتر از رکورد قبله، و نرخ شناسایی درست نبودن حمله‌ها (True Negative Rate یا TNR) هم تقریباً همون سطح خوب قبلیه، یعنی ۰٫۸۹.

یه نکته جالب دیگه هم اینه که دانشمندا بررسی کردن ببینن اصلاً این روش ترکیبی (که بهش co-evolution میگن، یعنی همزمان حمله و دفاع بهتر بشن)، ذخیره کردن مراحل بهینه‌سازی (gradient buffering)، و بهینه‌سازی همزمان چند هدف واقعاً مهمه یا نه. جواب: کاملاً مهمه و باعث میشه سیستم خیلی بهتر بشه!

خبر خوب اینه که این چارچوب حتی تو مدل‌های زبانی مختلف هم عالی کار میکنه، فقط محدود به یکی دوتا مدل نیست.

در کل، نتایج نشون داده که آموزش مبتنی بر “دشمن‌سازی” یا همون adversarial training (یعنی مدل رو تو حالت جنگی با مهاجمان تربیت کنی)، یکی از بهترین و قابل گسترش‌ترین روش‌ها برای مبارزه با حملات پرامپته. خلاصه اگر قراره از مدل‌های زبانی تو کارای واقعی استفاده کنیم، بهتره این شیوه‌ها رو جدی بگیریم و به فکر امنیتشون باشیم! 😉

منبع: +