ماجرای جیلبریک کردن چت‌بات‌ها: واقعاً چقدر پیچیده‌ست؟

Fall Back

خب رفقا، حتماً شما هم این روزا زیاد شنیدین که چطور مردم دارن سعی می‌کنن مدل‌های زبانی بزرگ—همون LLMها—رو گول بزنن و کاری کنن بدون سانسور یا محدودیت جواب بدن. حالا این جیلبریک (Jailbreak) یعنی دقیقاً کی چی کار می‌کنه؟ بذار یه توضیح ساده بدم: جیلبریک کردن یعنی دور زدن محدودیت‌های یه سیستم هوش مصنوعی—مثلاً ازش بخوای کاری رو انجام بده که قرار نیست یا نباید انجام بده، مثل جواب دادن به سوالات خطرناک یا حساس.

توی یه تحقیق جدید که حسابی سر و صدای خودش رو کرده و تو arXiv منتشر شده (که یه جور سایت مقاله برای کارای علمی‌ـه)، یه تیم اومده بیش از دو میلیون گفتگو رو از جاهای مختلف بررسی کرده. مثلاً هم از گروه‌ها و انجمن‌های مخصوص جیلبریک، هم از چت‌بات‌های معمولی که مردم استفاده می‌کنن. خلاصه، همه‌جور صحبت بین کاربرها و چت‌بات‌ها رو بررسی کردن تا ببینن جیلبریک چقدر پیچیده‌ست.

حالا اگه فک می‌کنی فقط نخبه‌ها یا هکرای خیلی خفن می‌تونن این کارو بکنن، خبر ندارم برات! محقق‌ها با کلی روش علمی (مثلاً “measureهای پیچیدگی” مثل شمارش کلمه‌های خاص، اندازه‌گیری احتمال‌های آماری، نگاه به بار شناختی و نسبت فشرده‌سازی—که یعنی ببینیم آیا این تلاش‌ها خیلی متفاوت یا خفن‌تر از حرف زدن عادی هست یا نه) بررسی کردن و فهمیدن که واقعاً جیلبریک خیلی هم پیچیده‌تر از چت معمولی نیست.

مثلاً “lexical diversity” یعنی تنوع واژه‌هایی که تو هر گفتگو استفاده می‌شه، یا “compression ratio” که میزان قابل فشرده‌سازی بودن متن‌هاست. جالب این که طبق همه این سنجه‌ها، تلاش برای جیلبریک کردن تقریباً همونقدر ساده یا پیچیده بوده که یه مکالمه‌ ساده بین دوستا یا کاربرهای عادی.

یعنی چی؟ یعنی خبری از حملات فضایی و فوق‌العاده پیشرفته همیشگی که ما فکر می‌کردیم، نیست! حتی تو انجمن‌های مخصوص که همه کاربرها دنبال جیلبریک کردن بودن، باز هم مکالمه‌ها خیلی پیچیده‌تر از گفت‌وگوهای معمول نبود.

حالا یه نکته دیگه: فکر می‌کنی شاید با گذر زمان، روش‌ها خفن‌تر شدن؟ اینا اومدن داده‌ها رو توی دوره‌های مختلف بررسی کردن. خروجی چی شد؟ میزان پیچیدگی و حتی “toxicity” همون سمی بودن حرفا (یعنی مثلاً حرفای مخرب، ناراحت‌کننده یا خطرناک) تقریباً ثابت مونده. اما جالبه که واکنش چت‌بات‌ها (یا همون assistantها) کمتر حالت سمی پیدا کرده، که این یعنی سیستم‌های دفاعی این مدل‌ها هی بهتر شدن و بیشتر به فکر ایمنی هستن.

یه نکته فنی دیگه که گفتن: رشد پیچیدگی این حملات مثل “power-law” نیست. Power-law یه مدل آماریه که اگه چیزی طبق اون بالا بره، یعنی یه عده کمی خیلی حرفه‌ای می‌شن و بقیه نمی‌تونن برسن به پیچیدگی اونها. اما اینجا همچین الگویی پیدا نکردن؛ یعنی حمله‌ها در یه سطح معقول و قابل پیش‌بینی باقی مونده.

جمع‌بندی؟ بر خلاف این داستان‌های ترسناکی که مدام می‌گن یه جنگ عجیب بین هکرها و سیستم‌های هوش مصنوعی در جریانه (همون “arms race” یا مسابقه تسلیحاتی)، فعلاً هم کاربرها خیلی عجیب غریب نیستن، هم مدل‌ها دارن هوشمندتر و ایمن‌تر می‌شن. انگار یه سقفی وجود داره برای خلاقیت انسان تو حمله به این سیستم‌ها، و تیم‌های دفاعی هم دائم ابزارهای جدید دارن اضافه می‌کنن.

اما یه هشدار هم دادن: افشای جزییات جیلبریک‌های خیلی پیشرفته تو مقاله‌ها و پژوهش‌ها ممکنه باعث بشه ابزار خطرناک از کنترل خارج بشه و قبل از این که بشه دفاعی براش ساخت، پخش بشه و به بقیه آسیب برسونه.

خلاصه اگر می‌خوای بدونی دنیا چقدر تو تلاش برای فریب هوش مصنوعی پیش رفته، انگار فعلاً خیلی از قافله دور نیستیم! اما هی باید حواسمون به تعادل بین امنیت و شفافیت باشه.

منبع: +