حقه‌ی خفن: چطور یه محقق کاری کرد ChatGPT کلید ویندوز رو لو بده! فقط با یه جمله ساده

خب دوست عزیز، بذار یه داستان باحال برات تعریف کنم که واقعاً هم آموزنده‌ست! اخیراً یه سری محقق امنیتی، از جمله Marco Figueroa (که کارشون سروکله زدن با مسائل امنیتیه)، نشستن و راهی پیدا کردن که تعداد زیادی از مدل‌های هوش مصنوعی مثل GPT-4 رو دور بزنن. یعنی تونستن با یه ترفند خیلی ساده کاری کنن که ChatGPT اطلاعات حساس رو لو بده! اطلاعاتی مثل کلید ویندوز یا حتی اطلاعات شخصی! یعنی چیزهایی که کلاً قرار نیست یه ربات عادی مثل ChatGPT به کسی بده.

ماجرا اینجوری بود: طرف اومد یه بازی ساخت به اسم “بازی حدس زدن” و از ربات GPT-4 خواست نقش یه بازیگر رو بازی کنه. منظور از بازیگری این کار همون logic manipulation یعنی دستکاری منطقیه؛ یعنی با یه جور بازی روانی طوری سوال پرسیدن که سیستم دیگه متوجه نشه داری چی می‌خوای.

حالا چطوری این سیستم‌های هوش مصنوعی قراره از اطلاعات حساس محافظت کنن؟ به این کار Guardrails میگن، که یه جور دیوار دفاعیه واسه جلوگیری از گفتن اطلاعات خطرناک. مثلاً اگه شما مستقیم به ChatGPT بگی “شماره سریال ویندوز ۱۰ رو بده”، سریعاً دوزاریش میفته و جواب نمیده. اما این بندگان خدا تونستن با یه حقه ساده این گارد رو دور بزنن.

حقه‌شون چی بود؟ اومدن اسم‌هایی مثل “کلید ویندوز” رو توی تگ‌های HTML قایم کردن (تگ HTML همون قسمت‌هاییه که تو سایت‌ها نوشته میشه تا یه تیکه متن مثلاً بولد یا لینک بشه! ربات زیاد بهشون گیر نمیده). این کار باعث شد فیلترهای معمولی کلاً بی‌خبر بمونن.

اما اصل ماجرا جایی جالب‌تر شد که یه جمله‌ای گفتن به اسم “I give up” یعنی “بیخیال شدم” یا “من تسلیمم”. به قول خود Marco Figueroa این جمله باعث شد ChatGPT قفلش باز شه و همون اطلاعات مخفی رو مثل کلید ویندوز Wells Fargo Bank یا حتی یه کلید فعال‌سازی ویندوز رو رو کنه. Wells Fargo Bank هم یکی از بانک‌های معتبر کشور آمریکاست. این یعنی میشه با همین ترفندها اطلاعات حساس یه شرکت یا موسسه واقعی رو هم دزدید!

البته راستش این کلیدهایی که ChatGPT گفته بود، قبلاً توی اینترنت و فروم‌های مختلف پیدا میشدن و یونیک نبودن (یعنی کلید جدید و اختصاصی نبودن). اما نکته خیلی مهم اینه که همین ضعف نشون میده اگه یه آدم بدجنس بیاد و همین ترفند رو پیشرفته‌تر کنه، شاید بتونه به اطلاعات خیلی عجیب‌تر و خصوصی‌تر هم برسه! یعنی ممکنه اطلاعات شخصی آدم‌ها، لینک‌های مخرب (malicious URL یعنی لینک‌هایی که ویروس یا بدافزار دارن)، یا حتی محتوای بزرگسال فیلترنشده هم نشون بده. عملاً گاردهای امینتی هنوز مثل گذشته قوی نیستن و فقط دنبال کلمات حساس می‌گردن، نه اینکه بفهمن کاربر داره حقه می‌زنه یا با شیطنت سؤال می‌پرسه (deceptive framing یعنی همین جور پیچوندن سؤال که منظور رو قایم کنی).

Marco Figueroa تأکید کرده که لازمه توسعه‌دهندگان AI بیان قبل از اینکه با این حقه‌ها سورپرایز بشن، خودشون رو آماده کنن و از الان تدبیر کنن. باید AI رو طوری آموزش بدن که متوجه شوخی و جدی یا ترفندهای مهندسی اجتماعی (Social engineering یعنی فریب دادن سیستم‌ها و آدم‌ها با روانشناسی و مهره‌چینی حرف‌ها) بشه و فقط به دنبال کلمات حساس نباشه؛ بلکه متوجه فضا و بستر سؤال هم باشه.

پس اگر شما یا دوستاتون دنبال کلید رایگان هستین، باید بدونین که این روش‌ها اولاً اخلاقی نیست، دوم هم توسعه‌دهنده‌ها بالاخره جلوی این ضعف‌ها رو خواهند گرفت. ضمناً این کلیدها واقعاً ارزش قانونی و امنیتی ندارن و تازه ممکنه دردسر هم درست کنن.

یادگیری از این اتفاق مهمه، چون به ما یادآوری میکنه حتی هوش مصنوعی‌های غول‌پیکر هم همیشه اونطوری که فکر می‌کنیم ضدگلوله نیستن و باید هوشمندانه باهاشون رفتار کنیم.

راستی، اگه دنبال ابزارهایی که واقعاً برایت مفید باشن می‌گردی، انواع ابزارهای AI مثل بهترین نویسنده‌ها یا ابزار حذف بدافزار هم هست که می‌تونی یه نگاهی بندازی!

خلاصه اینکه: دنیا داره هوشمند میشه، اما همین هوش مصنوعی هم بعضی وقتا با یه جمله ساده و بازی منحرف میشه! مراقب باشیم و به‌روز بمونیم.

منبع: +