محققان روش نوینی برای عبور از سدّ دفاعی هوش مصنوعی یافتهاند که با نام “Bad Likert Judge” شناخته میشود. این روش مبتنی بر حملات چندمرحلهای و استفاده هوشمندانه از مقیاس لیکرت است و میتواند میزان موفقیت حملات را تا بیش از ۶۰٪ افزایش دهد. این یافتهها نشاندهنده اهمیت تقویت فیلترهای محتوایی برای کاهش آسیبپذیریهای هوش مصنوعی است.
روش جدید فرار از زندان هوش مصنوعی، آسیبپذیریهایی را در مدلهای زبان بزرگ آشکار میکند
هوش مصنوعی (Artificial intelligence : AI) شیوهی تعامل ما با فناوری را دگرگون کرده است. اما همزمان با گسترش سریع استفاده از آن، چالشهای امنیتی نیز افزایش یافته است. کشف اخیر تیم Unit 42 پالو آلتو نتورکز، توجهها را به تکنیک جدیدی برای فرار از زندان هوش مصنوعی با اسم رمز “Bad Likert Judge” جلب کرده است. این تکنیک، به طور قابل توجهی میزان موفقیت در دور زدن مکانیزمهای امنیتی مدلهای زبان بزرگ (LLMs) را افزایش میدهد. این یافتهها، پیچیدگی روزافزون حملات تزریق سریع و پیامدهای بالقوهی آنها برای امنیت هوش مصنوعی را نشان میدهد.
“Bad Likert Judge” چیست؟
“Bad Likert Judge” یک استراتژی حملهی چند مرحلهای است. این استراتژی برای سوءاستفاده از مدلهای زبان بزرگ طراحی شده است. هدف آن، وادار کردن مدلهای زبان بزرگ به تولید محتوای مضر یا مخرب است. محققان Yongzhe Huang، Yang Ji، Wenjun Hu، Jay Chen، Akshata Rao و Danny Tsechansky نشان دادهاند که این تکنیک از مقیاس لیکرت – ابزاری برای سنجش میزان موافقت یا مخالفت – به عنوان یک نقطهی ضعف استفاده میکند. نحوهی کار آن به این صورت است:
- ابتدا به مدل زبان بزرگ دستور داده میشود که نقش قاضی را بازی کند. وظیفهی قاضی، ارزیابی میزان مضر بودن پاسخهای مختلف در مقیاس لیکرت است.
- سپس مهاجم نمونههایی با نمرات مختلف درخواست میکند. بدین ترتیب، مدل را به تولید خروجیهایی با بالاترین امتیاز مضر بودن ترغیب میکند.
این رویکرد زیرکانه، به مهاجمان اجازه میدهد تا از حفاظهای امنیتی داخلی عبور کنند. آنها میتوانند محتوای خطرناک را بدون فعال شدن فوری مکانیزمهای دفاعی مدل تولید کنند.
افزایش تهدیدات تزریق سریع
حملات تزریق سریع، از جمله روشهای فرار از زندان “many-shot” مانند Bad Likert Judge، تهدیدی رو به رشد برای سیستمهای هوش مصنوعی هستند. این حملات از پنجرهی زمینهی وسیع و مکانیزمهای توجه مدلهای زبان بزرگ سوءاستفاده میکنند. آنها به تدریج مدل را به سمت تولید خروجیهای مخرب هدایت میکنند. روشهای قبلی، مانند Crescendo و Deceptive Delight، نشان دادهاند که چگونه دستورات زیرکانه میتوانند باعث شوند مدلها رفتارهای مورد انتظار را نادیده بگیرند.
حملهی Bad Likert Judge به دلیل اثربخشی بالای آن بسیار نگرانکننده است. در آزمایشهایی که روی شش پلتفرم پیشرو در زمینهی مدلهای زبان بزرگ – شامل پلتفرمهای OpenAI، گوگل، متا، مایکروسافت، NVIDIA و سرویسهای وب آمازون – انجام شد، این تکنیک نرخ موفقیت حمله را بیش از ۶۰٪ در مقایسه با دستورات حملهی استاندارد افزایش داد. محتوای مضر آزمایش شده شامل مواردی مانند نفرتپراکنی، آزار و اذیت، خودآزاری و تولید بدافزار بود.
نقش فیلترهای محتوا
با وجود نرخ موفقیت بالای این روش فرار از زندان، محققان تأکید کردند که فیلترهای قوی محتوا میتوانند این آسیبپذیریها را کاهش دهند. فیلترهای محتوا به طور میانگین ۸۹.۲ درصد از نرخ موفقیت حمله را در تمام مدلهای آزمایش شده کاهش دادند. این امر، اهمیت آنها را در کاربردهای هوش مصنوعی در دنیای واقعی نشان میدهد. با این حال، این یافتهها همچنین نشان میدهند که تکیهی صرف بر مکانیزمهای امنیتی در مدلهای زبان بزرگ کافی نیست.
پیامدهای گستردهتر
این کشف پس از گزارش دیگری مبنی بر آسیبپذیریها در ChatGPT شرکت OpenAI منتشر شد. روزنامهی گاردین فاش کرد که چگونه متنهای پنهان در صفحات وب میتوانند ChatGPT را برای تولید خلاصههای گمراهکننده دستکاری کنند. این موضوع نشان میدهد که چگونه سیستمهای هوش مصنوعی میتوانند به روشهای غیرمنتظره مورد سوءاستفاده قرار گیرند. برای مثال، قرار دادن نظرات مثبت جعلی در یک صفحه وب، ChatGPT را وادار به ارائهی ارزیابیهای مطلوب نادرست میکرد.
این یافتهها، نیاز حیاتی توسعهدهندگان و سازمانهایی که از فناوریهای هوش مصنوعی استفاده میکنند را به اجرای اقدامات امنیتی جامع برجسته میکند. با پیشرفتهتر شدن مدلها، تاکتیکهای مورد استفاده برای سوءاستفاده از قابلیتهای آنها نیز پیچیدهتر خواهد شد. مقابلهی فعالانه با این چالشها برای اطمینان از استفادهی ایمن و مسئولانه از هوش مصنوعی در آینده ضروری است.
اگر به خواندن کامل این مطلب علاقهمندید، روی لینک مقابل کلیک کنید: the hacker news