افشای ریسک‌های جدید در آسیب‌پذیری هوش مصنوعی با روش “Bad Likert Judge”

محققان روش نوینی برای عبور از سدّ دفاعی هوش مصنوعی یافته‌اند که با نام “Bad Likert Judge” شناخته می‌شود. این روش مبتنی بر حملات چندمرحله‌ای و استفاده هوشمندانه از مقیاس لیکرت است و می‌تواند میزان موفقیت حملات را تا بیش از ۶۰٪ افزایش دهد. این یافته‌ها نشان‌دهنده اهمیت تقویت فیلترهای محتوایی برای کاهش آسیب‌پذیری‌های هوش مصنوعی است.

روش جدید فرار از زندان هوش مصنوعی، آسیب‌پذیری‌هایی را در مدل‌های زبان بزرگ آشکار می‌کند

هوش مصنوعی (Artificial intelligence : AI) شیوه‌ی تعامل ما با فناوری را دگرگون کرده است. اما همزمان با گسترش سریع استفاده از آن، چالش‌های امنیتی نیز افزایش یافته است. کشف اخیر تیم Unit 42 پالو آلتو نتورکز، توجه‌ها را به تکنیک جدیدی برای فرار از زندان هوش مصنوعی با اسم رمز “Bad Likert Judge” جلب کرده است. این تکنیک، به طور قابل توجهی میزان موفقیت در دور زدن مکانیزم‌های امنیتی مدل‌های زبان بزرگ (LLMs) را افزایش می‌دهد. این یافته‌ها، پیچیدگی روزافزون حملات تزریق سریع و پیامدهای بالقوه‌ی آنها برای امنیت هوش مصنوعی را نشان می‌دهد.

“Bad Likert Judge” چیست؟

“Bad Likert Judge” یک استراتژی حمله‌ی چند مرحله‌ای است. این استراتژی برای سوءاستفاده از مدل‌های زبان بزرگ طراحی شده است. هدف آن، وادار کردن مدل‌های زبان بزرگ به تولید محتوای مضر یا مخرب است. محققان Yongzhe Huang، Yang Ji، Wenjun Hu، Jay Chen، Akshata Rao و Danny Tsechansky نشان داده‌اند که این تکنیک از مقیاس لیکرت – ابزاری برای سنجش میزان موافقت یا مخالفت – به عنوان یک نقطه‌ی ضعف استفاده می‌کند. نحوه‌ی کار آن به این صورت است:

ابتدا به مدل زبان بزرگ دستور داده می‌شود که نقش قاضی را بازی کند. وظیفه‌ی قاضی، ارزیابی میزان مضر بودن پاسخ‌های مختلف در مقیاس لیکرت است.
سپس مهاجم نمونه‌هایی با نمرات مختلف درخواست می‌کند. بدین ترتیب، مدل را به تولید خروجی‌هایی با بالاترین امتیاز مضر بودن ترغیب می‌کند.

این رویکرد زیرکانه، به مهاجمان اجازه می‌دهد تا از حفاظ‌های امنیتی داخلی عبور کنند. آنها می‌توانند محتوای خطرناک را بدون فعال شدن فوری مکانیزم‌های دفاعی مدل تولید کنند.

افزایش تهدیدات تزریق سریع

حملات تزریق سریع، از جمله روش‌های فرار از زندان “many-shot” مانند Bad Likert Judge، تهدیدی رو به رشد برای سیستم‌های هوش مصنوعی هستند. این حملات از پنجره‌ی زمینه‌ی وسیع و مکانیزم‌های توجه مدل‌های زبان بزرگ سوءاستفاده می‌کنند. آنها به تدریج مدل را به سمت تولید خروجی‌های مخرب هدایت می‌کنند. روش‌های قبلی، مانند Crescendo و Deceptive Delight، نشان داده‌اند که چگونه دستورات زیرکانه می‌توانند باعث شوند مدل‌ها رفتارهای مورد انتظار را نادیده بگیرند.

حمله‌ی Bad Likert Judge به دلیل اثربخشی بالای آن بسیار نگران‌کننده است. در آزمایش‌هایی که روی شش پلتفرم پیشرو در زمینه‌ی مدل‌های زبان بزرگ – شامل پلتفرم‌های OpenAI، گوگل، متا، مایکروسافت، NVIDIA و سرویس‌های وب آمازون – انجام شد، این تکنیک نرخ موفقیت حمله را بیش از ۶۰٪ در مقایسه با دستورات حمله‌ی استاندارد افزایش داد. محتوای مضر آزمایش شده شامل مواردی مانند نفرت‌پراکنی، آزار و اذیت، خودآزاری و تولید بدافزار بود.

نقش فیلترهای محتوا

با وجود نرخ موفقیت بالای این روش فرار از زندان، محققان تأکید کردند که فیلترهای قوی محتوا می‌توانند این آسیب‌پذیری‌ها را کاهش دهند. فیلترهای محتوا به طور میانگین ۸۹.۲ درصد از نرخ موفقیت حمله را در تمام مدل‌های آزمایش شده کاهش دادند. این امر، اهمیت آنها را در کاربردهای هوش مصنوعی در دنیای واقعی نشان می‌دهد. با این حال، این یافته‌ها همچنین نشان می‌دهند که تکیه‌ی صرف بر مکانیزم‌های امنیتی در مدل‌های زبان بزرگ کافی نیست.

پیامدهای گسترده‌تر

این کشف پس از گزارش دیگری مبنی بر آسیب‌پذیری‌ها در ChatGPT شرکت OpenAI منتشر شد. روزنامه‌ی گاردین فاش کرد که چگونه متن‌های پنهان در صفحات وب می‌توانند ChatGPT را برای تولید خلاصه‌های گمراه‌کننده دستکاری کنند. این موضوع نشان می‌دهد که چگونه سیستم‌های هوش مصنوعی می‌توانند به روش‌های غیرمنتظره مورد سوءاستفاده قرار گیرند. برای مثال، قرار دادن نظرات مثبت جعلی در یک صفحه وب، ChatGPT را وادار به ارائه‌ی ارزیابی‌های مطلوب نادرست می‌کرد.

این یافته‌ها، نیاز حیاتی توسعه‌دهندگان و سازمان‌هایی که از فناوری‌های هوش مصنوعی استفاده می‌کنند را به اجرای اقدامات امنیتی جامع برجسته می‌کند. با پیشرفته‌تر شدن مدل‌ها، تاکتیک‌های مورد استفاده برای سوءاستفاده از قابلیت‌های آنها نیز پیچیده‌تر خواهد شد. مقابله‌ی فعالانه با این چالش‌ها برای اطمینان از استفاده‌ی ایمن و مسئولانه از هوش مصنوعی در آینده ضروری است.

اگر به خواندن کامل این مطلب علاقه‌مندید، روی لینک مقابل کلیک کنید: the hacker news