بهینه‌سازی و ارزیابی دستورها برای تیم قرمز خودکار با کمک مدل‌های زبانی بزرگ

Fall Back

این روزها دیگه همه جا حرف از مدل‌های زبانی بزرگ یا همون LLMهاست، مثل ChatGPT و رفقاش! هرچی استفاده از این مدل‌ها بیشتر میشه، پیدا کردن نقاط ضعف و مشکلات امنیتی‌شون هم مهم‌تر میشه. حالا اینجا یه مفهوم بامزه به اسم Red Teaming داریم—تیم قرمز یعنی گروهی که وظیفه‌شونه به سیستم حمله کنن و راه‌های نفوذ رو پیدا کنن تا بعدا نشه ازشون سوءاستفاده کرد.

توی دنیای جدید، خودِ همین LLMها رو به کار می‌گیرن تا حمله‌های خودکار علیه سیستم‌ها اجرا کنن. یعنی یک مدل هوش مصنوعی دیگه تیم قرمز بازی درمیاره و سعی می‌کنه سیستم رو هک کنه! به این کار میگن Automated Red Teaming یا تیم قرمز خودکار.

حالا نکته اصلی! برای این که بفهمیم این حمله‌ها واقعاً چقدر کارآمد بودن، یه متر به اسم Attack Success Rate داریم. این یعنی نرخ موفقیت حمله‌ها. هر بار که مدل حمله‌ای اجرا می‌کنه، بررسی می‌کنن موفق بوده یا نه و بعد معدلش رو حساب می‌کنن.

نویسنده‌های این مقاله یه کار جالب انجام دادن: اومدن روش بهینه‌سازی دستور (Prompt) دادن به این مدل‌های حمله‌کننده رو پیشنهاد دادن. “Prompt” یعنی همون دستوری که به مدل می‌دیم تا بر اساسش کار خاصی انجام بده. مثلاً بهش می‌گیم “یه راهی واسه دور زدن محدودیت‌های یه چت‌بات پیدا کن”.

اون‌ها میگن به جای اینکه فقط به معدل موفقیت حمله‌ها نگاه کنیم، هر حمله رو چند بار روی سیستم‌های مختلف با حالت تصادفی امتحان کنیم و ببینیم هر حمله به طور خاص چقدر شانس کشف آسیب‌پذیری داره. به این میگن Discoverability یا میزان کشف شدن هر حمله. یعنی انتظار موفقیت هر حمله جداجدا رو حساب می‌کنن.

این روش یه مزیت جالب داره: با تکرار هر حمله به طور تصادفی روی سیستم‌های مختلف، الگوهای مخفی و قابل بهره‌برداری رو بهتر می‌تونیم شناسایی کنیم. این اطلاعات کمک می‌کنه تا دستورهای بهتری به مدل بدیم و خروجی‌های تیم قرمز هوش مصنوعی رو قوی‌تر و هوشمندتر کنیم.

در نهایت، نویسنده‌ها تاکید می‌کنن که این روش کمک می‌کنه تیم قرمزهای خودکار دقیق‌تر ضعف‌های سیستم رو پیدا کنن و کلی به بهبود امنیت ابزارهایی که بر پایه مدل‌های زبانی بزرگ ساخته میشن، کمک می‌کنه. واقعاً دنیا جای جالبیه وقتی هوش مصنوعی رو به بازی تیم قرمز و تیم آبی می‌کشن!

منبع: +