داستان AutoAdv: وقتی هوش مصنوعی راحت گول می‌خوره!

Fall Back

سلام! امروز میخوام در مورد یه موضوع باحال و مهم حرف بزنم: چطور حتی باحال‌ترین مدل‌های هوش مصنوعی مثل ChatGPT، Llama یا DeepSeek رو میشه با حقه‌هایی به اسم «jailbreak» دور زد و وادارشون کرد کارهایی بکنن که نباید!

اول یه توضیح: وقتی حرف از “Large Language Models” یا همون “مدل‌های زبانی بزرگ” میزنیم، منظور همون هوش مصنوعی‌هایی هست که می‌تونن متن تولید کنن، جواب بدن یا حتی باهات چت کنن؛ مثل ChatGPT که همه باهاش آشناییم. این مدل‌ها روشون کلی “محافظ ایمنی” یا همون safety guardrails پیاده‌سازی شده تا محتوای خطرناک تولید نکنن. اما خب، ملت همیشه دنبال راه‌هایی هستن که این محدودیت‌ها رو دور بزنن، یعنی «jailbreaking»! (jailbreaking همون هک کردن و دور زدن محدودیت‌های یه سیستم هست.)

حالا چند نفر باهوش اومدن و توی مقاله‌ای به اسم AutoAdv از روشی حرف زدن که کلاً ساختن یه سری prompt (پرامپت یعنی همون چیزی که به هوش مصنوعی میدی تا جواب بده) مخرب رو کاملاً اتوماتیک کردن. AutoAdv یعنی “Automated Adversarial Prompting”؛ خلاصه‌ش یعنی خودکار کردن ساخت پرسش‌هایی که هوش مصنوعی رو گول بزنه.

شاید بپرسی این چه فایده‌ای داره؟ خب، اگر بفهمیم مدل‌ها کجاها امنیت ضعیفی دارن، می‌تونیم راه‌هایی پیدا کنیم که ایمن‌ترشون کنیم. AutoAdv دقیقاً برای این ساخته شده که ضعف‌های امنیتی مدل‌های زبانی رو با حقه‌های هوشمندانه پیدا کنه.

چطوری این کار رو انجام دادن؟
– یه هوش مصنوعی دیگه رو به عنوان “حمله‌کننده” یا همون “parametric attacker LLM” گذاشتن. این مدل میاد پرسش‌های مخربی رو طوری بازنویسی می‌کنه که مدل هدف متوجه نشه و فریب بخوره. مثلا شاید با بازی نقش (roleplaying یعنی وانمود کنی تو نقش یا شخصیت دیگه‌ای هستی)، جهت‌دهی غلط (misdirection یعنی حواس مدل رو پرت کردن)، یا دستکاری سیاق و متن (contextual manipulation یعنی تغییر شرایط و وضعیت پرسش) سوالش رو می‌پرسه.
– هر بار که حمله موفق نباشه، این سیستم با یه سری الگوریتم و پارامتر و ترکیب مختلف، پرامپت رو اصلاح می‌کنه و دوباره امتحان می‌کنه. این فرآیند رو چند دور تکرار می‌کنه تا بالاخره موفق بشه جواب مخرب بگیره. به این سبک میگن multi-turn attack یعنی چند بار تعامل و اصلاحِ متوالی.

برای اینکه بدونن این روش واقعاً جواب میده یا نه، از چارچوبی به اسم StrongREJECT (یه روش ارزیابی مدل زبانی که تست می‌کنه چقدر سخت میشه مدل رو گول زد!) استفاده کردن و روی مدل‌هایی مثل ChatGPT، Llama و DeepSeek تست گرفتن.

نتیجه واقعاً جالب بود: توی بعضی موارد، تا ۸۶٪ موفقیت تونستن سیستم‌های ایمنی رو دور بزنن و محتواهای خطرناک (یعنی جواب‌هایی که نباید هوش مصنوعی بده) بگیرن! این عدد واقعاً بالاست و نشون میده حتی مدل‌هایی که فکر می‌کنیم امن هستن، هنوز نقطه‌ضعف‌های جدی دارن.

یه نکته مهم مقاله این بود که مدل‌های امروزی همچنان به حمله‌های هوشمندانه و چند مرحله‌ای حساسن و نباید فکر کنیم «دیگه امنیتشون کامله». اتفاقاً هرچی تکنیک حمله پیچیده‌تر باشه، بیشتر میشه دورشون زد!

نتیجه‌گیری مقاله هم این بود که باید سریع‌تر روی راه‌های دفاع قوی‌تر و هوشمندانه‌تر کار کنیم تا این مدل‌های زبانی گول نخورند و نتونن به تولید محتوای مضر کمک کنن. چون با این روش‌ها، هرکسی می‌تونه یه پرسش خطرناک رو جوری مطرح کنه که مدل‌های فعلی نتونن تشخیص بدن و جواب بدن.

پس اگه فکر می‌کردین هوش مصنوعی‌ها رو دیگه نمی‌شه گول زد، باید بگم هنوز کلی کار داریم تا امنیت واقعی برسیم. 😃
منبع: +