خب رفقا، حتماً شما هم این روزا زیاد شنیدین که چطور مردم دارن سعی میکنن مدلهای زبانی بزرگ—همون LLMها—رو گول بزنن و کاری کنن بدون سانسور یا محدودیت جواب بدن. حالا این جیلبریک (Jailbreak) یعنی دقیقاً کی چی کار میکنه؟ بذار یه توضیح ساده بدم: جیلبریک کردن یعنی دور زدن محدودیتهای یه سیستم هوش مصنوعی—مثلاً ازش بخوای کاری رو انجام بده که قرار نیست یا نباید انجام بده، مثل جواب دادن به سوالات خطرناک یا حساس.
توی یه تحقیق جدید که حسابی سر و صدای خودش رو کرده و تو arXiv منتشر شده (که یه جور سایت مقاله برای کارای علمیـه)، یه تیم اومده بیش از دو میلیون گفتگو رو از جاهای مختلف بررسی کرده. مثلاً هم از گروهها و انجمنهای مخصوص جیلبریک، هم از چتباتهای معمولی که مردم استفاده میکنن. خلاصه، همهجور صحبت بین کاربرها و چتباتها رو بررسی کردن تا ببینن جیلبریک چقدر پیچیدهست.
حالا اگه فک میکنی فقط نخبهها یا هکرای خیلی خفن میتونن این کارو بکنن، خبر ندارم برات! محققها با کلی روش علمی (مثلاً “measureهای پیچیدگی” مثل شمارش کلمههای خاص، اندازهگیری احتمالهای آماری، نگاه به بار شناختی و نسبت فشردهسازی—که یعنی ببینیم آیا این تلاشها خیلی متفاوت یا خفنتر از حرف زدن عادی هست یا نه) بررسی کردن و فهمیدن که واقعاً جیلبریک خیلی هم پیچیدهتر از چت معمولی نیست.
مثلاً “lexical diversity” یعنی تنوع واژههایی که تو هر گفتگو استفاده میشه، یا “compression ratio” که میزان قابل فشردهسازی بودن متنهاست. جالب این که طبق همه این سنجهها، تلاش برای جیلبریک کردن تقریباً همونقدر ساده یا پیچیده بوده که یه مکالمه ساده بین دوستا یا کاربرهای عادی.
یعنی چی؟ یعنی خبری از حملات فضایی و فوقالعاده پیشرفته همیشگی که ما فکر میکردیم، نیست! حتی تو انجمنهای مخصوص که همه کاربرها دنبال جیلبریک کردن بودن، باز هم مکالمهها خیلی پیچیدهتر از گفتوگوهای معمول نبود.
حالا یه نکته دیگه: فکر میکنی شاید با گذر زمان، روشها خفنتر شدن؟ اینا اومدن دادهها رو توی دورههای مختلف بررسی کردن. خروجی چی شد؟ میزان پیچیدگی و حتی “toxicity” همون سمی بودن حرفا (یعنی مثلاً حرفای مخرب، ناراحتکننده یا خطرناک) تقریباً ثابت مونده. اما جالبه که واکنش چتباتها (یا همون assistantها) کمتر حالت سمی پیدا کرده، که این یعنی سیستمهای دفاعی این مدلها هی بهتر شدن و بیشتر به فکر ایمنی هستن.
یه نکته فنی دیگه که گفتن: رشد پیچیدگی این حملات مثل “power-law” نیست. Power-law یه مدل آماریه که اگه چیزی طبق اون بالا بره، یعنی یه عده کمی خیلی حرفهای میشن و بقیه نمیتونن برسن به پیچیدگی اونها. اما اینجا همچین الگویی پیدا نکردن؛ یعنی حملهها در یه سطح معقول و قابل پیشبینی باقی مونده.
جمعبندی؟ بر خلاف این داستانهای ترسناکی که مدام میگن یه جنگ عجیب بین هکرها و سیستمهای هوش مصنوعی در جریانه (همون “arms race” یا مسابقه تسلیحاتی)، فعلاً هم کاربرها خیلی عجیب غریب نیستن، هم مدلها دارن هوشمندتر و ایمنتر میشن. انگار یه سقفی وجود داره برای خلاقیت انسان تو حمله به این سیستمها، و تیمهای دفاعی هم دائم ابزارهای جدید دارن اضافه میکنن.
اما یه هشدار هم دادن: افشای جزییات جیلبریکهای خیلی پیشرفته تو مقالهها و پژوهشها ممکنه باعث بشه ابزار خطرناک از کنترل خارج بشه و قبل از این که بشه دفاعی براش ساخت، پخش بشه و به بقیه آسیب برسونه.
خلاصه اگر میخوای بدونی دنیا چقدر تو تلاش برای فریب هوش مصنوعی پیش رفته، انگار فعلاً خیلی از قافله دور نیستیم! اما هی باید حواسمون به تعادل بین امنیت و شفافیت باشه.
منبع: +