سلام! امروز میخوام در مورد یه موضوع باحال و مهم حرف بزنم: چطور حتی باحالترین مدلهای هوش مصنوعی مثل ChatGPT، Llama یا DeepSeek رو میشه با حقههایی به اسم «jailbreak» دور زد و وادارشون کرد کارهایی بکنن که نباید!
اول یه توضیح: وقتی حرف از “Large Language Models” یا همون “مدلهای زبانی بزرگ” میزنیم، منظور همون هوش مصنوعیهایی هست که میتونن متن تولید کنن، جواب بدن یا حتی باهات چت کنن؛ مثل ChatGPT که همه باهاش آشناییم. این مدلها روشون کلی “محافظ ایمنی” یا همون safety guardrails پیادهسازی شده تا محتوای خطرناک تولید نکنن. اما خب، ملت همیشه دنبال راههایی هستن که این محدودیتها رو دور بزنن، یعنی «jailbreaking»! (jailbreaking همون هک کردن و دور زدن محدودیتهای یه سیستم هست.)
حالا چند نفر باهوش اومدن و توی مقالهای به اسم AutoAdv از روشی حرف زدن که کلاً ساختن یه سری prompt (پرامپت یعنی همون چیزی که به هوش مصنوعی میدی تا جواب بده) مخرب رو کاملاً اتوماتیک کردن. AutoAdv یعنی “Automated Adversarial Prompting”؛ خلاصهش یعنی خودکار کردن ساخت پرسشهایی که هوش مصنوعی رو گول بزنه.
شاید بپرسی این چه فایدهای داره؟ خب، اگر بفهمیم مدلها کجاها امنیت ضعیفی دارن، میتونیم راههایی پیدا کنیم که ایمنترشون کنیم. AutoAdv دقیقاً برای این ساخته شده که ضعفهای امنیتی مدلهای زبانی رو با حقههای هوشمندانه پیدا کنه.
چطوری این کار رو انجام دادن؟
– یه هوش مصنوعی دیگه رو به عنوان “حملهکننده” یا همون “parametric attacker LLM” گذاشتن. این مدل میاد پرسشهای مخربی رو طوری بازنویسی میکنه که مدل هدف متوجه نشه و فریب بخوره. مثلا شاید با بازی نقش (roleplaying یعنی وانمود کنی تو نقش یا شخصیت دیگهای هستی)، جهتدهی غلط (misdirection یعنی حواس مدل رو پرت کردن)، یا دستکاری سیاق و متن (contextual manipulation یعنی تغییر شرایط و وضعیت پرسش) سوالش رو میپرسه.
– هر بار که حمله موفق نباشه، این سیستم با یه سری الگوریتم و پارامتر و ترکیب مختلف، پرامپت رو اصلاح میکنه و دوباره امتحان میکنه. این فرآیند رو چند دور تکرار میکنه تا بالاخره موفق بشه جواب مخرب بگیره. به این سبک میگن multi-turn attack یعنی چند بار تعامل و اصلاحِ متوالی.
برای اینکه بدونن این روش واقعاً جواب میده یا نه، از چارچوبی به اسم StrongREJECT (یه روش ارزیابی مدل زبانی که تست میکنه چقدر سخت میشه مدل رو گول زد!) استفاده کردن و روی مدلهایی مثل ChatGPT، Llama و DeepSeek تست گرفتن.
نتیجه واقعاً جالب بود: توی بعضی موارد، تا ۸۶٪ موفقیت تونستن سیستمهای ایمنی رو دور بزنن و محتواهای خطرناک (یعنی جوابهایی که نباید هوش مصنوعی بده) بگیرن! این عدد واقعاً بالاست و نشون میده حتی مدلهایی که فکر میکنیم امن هستن، هنوز نقطهضعفهای جدی دارن.
یه نکته مهم مقاله این بود که مدلهای امروزی همچنان به حملههای هوشمندانه و چند مرحلهای حساسن و نباید فکر کنیم «دیگه امنیتشون کامله». اتفاقاً هرچی تکنیک حمله پیچیدهتر باشه، بیشتر میشه دورشون زد!
نتیجهگیری مقاله هم این بود که باید سریعتر روی راههای دفاع قویتر و هوشمندانهتر کار کنیم تا این مدلهای زبانی گول نخورند و نتونن به تولید محتوای مضر کمک کنن. چون با این روشها، هرکسی میتونه یه پرسش خطرناک رو جوری مطرح کنه که مدلهای فعلی نتونن تشخیص بدن و جواب بدن.
پس اگه فکر میکردین هوش مصنوعیها رو دیگه نمیشه گول زد، باید بگم هنوز کلی کار داریم تا امنیت واقعی برسیم. 😃
منبع: +