خب دوست عزیز، بذار یه داستان باحال برات تعریف کنم که واقعاً هم آموزندهست! اخیراً یه سری محقق امنیتی، از جمله Marco Figueroa (که کارشون سروکله زدن با مسائل امنیتیه)، نشستن و راهی پیدا کردن که تعداد زیادی از مدلهای هوش مصنوعی مثل GPT-4 رو دور بزنن. یعنی تونستن با یه ترفند خیلی ساده کاری کنن که ChatGPT اطلاعات حساس رو لو بده! اطلاعاتی مثل کلید ویندوز یا حتی اطلاعات شخصی! یعنی چیزهایی که کلاً قرار نیست یه ربات عادی مثل ChatGPT به کسی بده.
ماجرا اینجوری بود: طرف اومد یه بازی ساخت به اسم “بازی حدس زدن” و از ربات GPT-4 خواست نقش یه بازیگر رو بازی کنه. منظور از بازیگری این کار همون logic manipulation یعنی دستکاری منطقیه؛ یعنی با یه جور بازی روانی طوری سوال پرسیدن که سیستم دیگه متوجه نشه داری چی میخوای.
حالا چطوری این سیستمهای هوش مصنوعی قراره از اطلاعات حساس محافظت کنن؟ به این کار Guardrails میگن، که یه جور دیوار دفاعیه واسه جلوگیری از گفتن اطلاعات خطرناک. مثلاً اگه شما مستقیم به ChatGPT بگی “شماره سریال ویندوز ۱۰ رو بده”، سریعاً دوزاریش میفته و جواب نمیده. اما این بندگان خدا تونستن با یه حقه ساده این گارد رو دور بزنن.
حقهشون چی بود؟ اومدن اسمهایی مثل “کلید ویندوز” رو توی تگهای HTML قایم کردن (تگ HTML همون قسمتهاییه که تو سایتها نوشته میشه تا یه تیکه متن مثلاً بولد یا لینک بشه! ربات زیاد بهشون گیر نمیده). این کار باعث شد فیلترهای معمولی کلاً بیخبر بمونن.
اما اصل ماجرا جایی جالبتر شد که یه جملهای گفتن به اسم “I give up” یعنی “بیخیال شدم” یا “من تسلیمم”. به قول خود Marco Figueroa این جمله باعث شد ChatGPT قفلش باز شه و همون اطلاعات مخفی رو مثل کلید ویندوز Wells Fargo Bank یا حتی یه کلید فعالسازی ویندوز رو رو کنه. Wells Fargo Bank هم یکی از بانکهای معتبر کشور آمریکاست. این یعنی میشه با همین ترفندها اطلاعات حساس یه شرکت یا موسسه واقعی رو هم دزدید!
البته راستش این کلیدهایی که ChatGPT گفته بود، قبلاً توی اینترنت و فرومهای مختلف پیدا میشدن و یونیک نبودن (یعنی کلید جدید و اختصاصی نبودن). اما نکته خیلی مهم اینه که همین ضعف نشون میده اگه یه آدم بدجنس بیاد و همین ترفند رو پیشرفتهتر کنه، شاید بتونه به اطلاعات خیلی عجیبتر و خصوصیتر هم برسه! یعنی ممکنه اطلاعات شخصی آدمها، لینکهای مخرب (malicious URL یعنی لینکهایی که ویروس یا بدافزار دارن)، یا حتی محتوای بزرگسال فیلترنشده هم نشون بده. عملاً گاردهای امینتی هنوز مثل گذشته قوی نیستن و فقط دنبال کلمات حساس میگردن، نه اینکه بفهمن کاربر داره حقه میزنه یا با شیطنت سؤال میپرسه (deceptive framing یعنی همین جور پیچوندن سؤال که منظور رو قایم کنی).
Marco Figueroa تأکید کرده که لازمه توسعهدهندگان AI بیان قبل از اینکه با این حقهها سورپرایز بشن، خودشون رو آماده کنن و از الان تدبیر کنن. باید AI رو طوری آموزش بدن که متوجه شوخی و جدی یا ترفندهای مهندسی اجتماعی (Social engineering یعنی فریب دادن سیستمها و آدمها با روانشناسی و مهرهچینی حرفها) بشه و فقط به دنبال کلمات حساس نباشه؛ بلکه متوجه فضا و بستر سؤال هم باشه.
پس اگر شما یا دوستاتون دنبال کلید رایگان هستین، باید بدونین که این روشها اولاً اخلاقی نیست، دوم هم توسعهدهندهها بالاخره جلوی این ضعفها رو خواهند گرفت. ضمناً این کلیدها واقعاً ارزش قانونی و امنیتی ندارن و تازه ممکنه دردسر هم درست کنن.
یادگیری از این اتفاق مهمه، چون به ما یادآوری میکنه حتی هوش مصنوعیهای غولپیکر هم همیشه اونطوری که فکر میکنیم ضدگلوله نیستن و باید هوشمندانه باهاشون رفتار کنیم.
راستی، اگه دنبال ابزارهایی که واقعاً برایت مفید باشن میگردی، انواع ابزارهای AI مثل بهترین نویسندهها یا ابزار حذف بدافزار هم هست که میتونی یه نگاهی بندازی!
خلاصه اینکه: دنیا داره هوشمند میشه، اما همین هوش مصنوعی هم بعضی وقتا با یه جمله ساده و بازی منحرف میشه! مراقب باشیم و بهروز بمونیم.
منبع: +