این روزها دیگه همه جا حرف از مدلهای زبانی بزرگ یا همون LLMهاست، مثل ChatGPT و رفقاش! هرچی استفاده از این مدلها بیشتر میشه، پیدا کردن نقاط ضعف و مشکلات امنیتیشون هم مهمتر میشه. حالا اینجا یه مفهوم بامزه به اسم Red Teaming داریم—تیم قرمز یعنی گروهی که وظیفهشونه به سیستم حمله کنن و راههای نفوذ رو پیدا کنن تا بعدا نشه ازشون سوءاستفاده کرد.
توی دنیای جدید، خودِ همین LLMها رو به کار میگیرن تا حملههای خودکار علیه سیستمها اجرا کنن. یعنی یک مدل هوش مصنوعی دیگه تیم قرمز بازی درمیاره و سعی میکنه سیستم رو هک کنه! به این کار میگن Automated Red Teaming یا تیم قرمز خودکار.
حالا نکته اصلی! برای این که بفهمیم این حملهها واقعاً چقدر کارآمد بودن، یه متر به اسم Attack Success Rate داریم. این یعنی نرخ موفقیت حملهها. هر بار که مدل حملهای اجرا میکنه، بررسی میکنن موفق بوده یا نه و بعد معدلش رو حساب میکنن.
نویسندههای این مقاله یه کار جالب انجام دادن: اومدن روش بهینهسازی دستور (Prompt) دادن به این مدلهای حملهکننده رو پیشنهاد دادن. “Prompt” یعنی همون دستوری که به مدل میدیم تا بر اساسش کار خاصی انجام بده. مثلاً بهش میگیم “یه راهی واسه دور زدن محدودیتهای یه چتبات پیدا کن”.
اونها میگن به جای اینکه فقط به معدل موفقیت حملهها نگاه کنیم، هر حمله رو چند بار روی سیستمهای مختلف با حالت تصادفی امتحان کنیم و ببینیم هر حمله به طور خاص چقدر شانس کشف آسیبپذیری داره. به این میگن Discoverability یا میزان کشف شدن هر حمله. یعنی انتظار موفقیت هر حمله جداجدا رو حساب میکنن.
این روش یه مزیت جالب داره: با تکرار هر حمله به طور تصادفی روی سیستمهای مختلف، الگوهای مخفی و قابل بهرهبرداری رو بهتر میتونیم شناسایی کنیم. این اطلاعات کمک میکنه تا دستورهای بهتری به مدل بدیم و خروجیهای تیم قرمز هوش مصنوعی رو قویتر و هوشمندتر کنیم.
در نهایت، نویسندهها تاکید میکنن که این روش کمک میکنه تیم قرمزهای خودکار دقیقتر ضعفهای سیستم رو پیدا کنن و کلی به بهبود امنیت ابزارهایی که بر پایه مدلهای زبانی بزرگ ساخته میشن، کمک میکنه. واقعاً دنیا جای جالبیه وقتی هوش مصنوعی رو به بازی تیم قرمز و تیم آبی میکشن!
منبع: +