حتماً تازگیا کلی راجع به هوش مصنوعی و مدلهای زبانی بزرگ (LLMها) شنیدین، مثل ChatGPT، که میتونن متن بنویسن، جواب بدن یا حتی داستان بگن. این مدلها اینقدر قوی شدن که خیلیها ازشون تو اپلیکیشنها و سرویسهای جدی استفاده میکنن. اما مشکل اینجاست که یکی از چالشهای اصلی این مدلها، موضوع حملههای Prompt Injection هست!
خب، حالا Prompt Injection چیه؟ به زبان ساده یعنی کسی یه ورودی (پرامپت) به مدل بده که باعث بشه مدل کارهایی انجام بده که قرار نبوده، مثلاً اطلاعات غلط بده یا دستورات غیرمجاز اجرا کنه. اینجوری عملاً میشه مدل رو هک کرد یا گول زد! برای جلوگیری هم روشهایی مثل تشخیص بر اساس پرامپت هست که سبکه و قابل فهمه، ولی چون باید دستی پرامپتهاش رو تنظیم کنی، همیشه خوب جواب نمیده و وقتگیر هم هست.
حالا اینجا سیستم جدیدی به اسم AEGIS به کمک اومده! بذارین داستانش رو راحت توضیح بدم: این سیستم یه چارچوب کاملاً خودکار و باهوشه برای دفاع در برابر حملات پرامپت. یعنی هکرها و مدافعها رو میذاره توی یه رقابت باهم تا هر دو طرف بتونن خودشون رو باهوشتر کنن و تکنیکهاشون رو آپدیت کنن.
توی AEGIS، هم حملهکنندهها (کسانی که دنبال آسیبزدن به مدل هستن) و هم مدافعها (کسایی که میخوان جلوی این هکها رو بگیرن) با همدیگه، و البته خودکار، پرامپتهاشون رو بهینه میکنن. این کار با یه چیزی به اسم “بهینهسازی گرادیانی متنی” انجام میشه – یعنی یه جور روش هوشمند و مرحلهای برای پیدا کردن بهترین وردی و دفاعیه، کاملاً به کمک خود مدل زبان و یه حلقه بازخورد!
AEGIS با استفاده از این رویکرد تونسته تو یه آزمایش واقعی (روی دیتاست مربوط به نمرهدهی به وظایف با حمله پرامپت!) عالی عمل کنه. مثلاً موفقیت حمله (ASR) تا عدد ۱٫۰ بالا رفته (یه پیشرفت خیلی خفن نسبت به روشهای قبلی – دقیقاً ۰٫۲۶ بهتر). از اون طرف، شناسایی موفق حمله (True Positive Rate یا TPR) هم از همه قبلیا بهتر شده: به ۰٫۸۴ رسیده که ۰٫۲۳ بهتر از رکورد قبله، و نرخ شناسایی درست نبودن حملهها (True Negative Rate یا TNR) هم تقریباً همون سطح خوب قبلیه، یعنی ۰٫۸۹.
یه نکته جالب دیگه هم اینه که دانشمندا بررسی کردن ببینن اصلاً این روش ترکیبی (که بهش co-evolution میگن، یعنی همزمان حمله و دفاع بهتر بشن)، ذخیره کردن مراحل بهینهسازی (gradient buffering)، و بهینهسازی همزمان چند هدف واقعاً مهمه یا نه. جواب: کاملاً مهمه و باعث میشه سیستم خیلی بهتر بشه!
خبر خوب اینه که این چارچوب حتی تو مدلهای زبانی مختلف هم عالی کار میکنه، فقط محدود به یکی دوتا مدل نیست.
در کل، نتایج نشون داده که آموزش مبتنی بر “دشمنسازی” یا همون adversarial training (یعنی مدل رو تو حالت جنگی با مهاجمان تربیت کنی)، یکی از بهترین و قابل گسترشترین روشها برای مبارزه با حملات پرامپته. خلاصه اگر قراره از مدلهای زبانی تو کارای واقعی استفاده کنیم، بهتره این شیوهها رو جدی بگیریم و به فکر امنیتشون باشیم! 😉
منبع: +