جدیدترین ابزار برای پیدا کردن خطرهای پنهان مدل‌های متن‌باز هوش مصنوعی!

Fall Back

خب بچه‌ها، امروز می‌خوام درباره یه موضوع خیلی داغ و مهم تو دنیای هوش مصنوعی صحبت کنم که خیلی‌هامون شاید زیاد دقت نکرده باشیم: “اختلافِ ایمنی” یا همون Safety Gap تو مدل‌های متن‌باز مثل Llama-3 و Qwen-2.5.

اول بذارید یه توضیح خیلی خودمونی بدم این مدل‌های متن‌باز چی‌ان. مدل متن‌باز یعنی مدل‌هایی که وزن‌ها و دیتای آموزشی‌شون رو در دسترس عموم می‌ذارن، واسه همین هر کسی می‌تونه اون‌ها رو برداره، تغییر بده یا حتی استفاده شخصی خودش کنه. این یه مزیت خیلی بزرگه! چون نوآوری رو تقویت می‌کنه، به مردم اجازه می‌ده مدل رو طبق سلیقه‌شون شخصی‌سازی کنن و حتی از نظر حریم خصوصی بهتره چون اجباری نیست دیتا به شرکت‌های بزرگ فرستاده بشه.

ولی داستان اینه که همین باز بودن دسترسی، خودش کلی دردسر و ریسک میاره! بعضی‌ها که نیت خوبی ندارن خیلی راحت می‌تونن این مدل رو تغییر بدن و مکانیزم‌های ایمنی‌ای که روش گذاشتن رو دور بزنن. مثلا فرض کن یه مدل زبان بزرگ (LLM) داری که نباید دستور ساخت مواد مخدر یا حملات سایبری رو به کسی یاد بده. ولی اگه مکانیزم فیلترهایش رو ورداری، یهو همون مدل می‌تونه خطرناک بشه!

اینجاست که یه مفهوم به اسم “گپ ایمنی” یا Safety Gap مطرح می‌شه. گپ ایمنی یعنی این اختلاف خطرناکی که بین یه مدل با فیلترها و همون مدل بدون فیلترها به وجود میاد. مثلاً با برداشتن محافظ‌ها، مدل یه‌هو کارهایی می‌کنه که قبلش نمی‌تونست و این یعنی مشکل بزرگ!

حالا یه تیم خفن اومده یه جعبه‌ابزار رایگان و متن‌باز به نام “Safety Gap Toolkit” ساخته (می‌تونید از اینجا بردارید: https://github.com/AlignmentResearch/safety-gap) که دقیقا همین گپ ایمنی رو برای مدل‌های متن‌باز چک می‌کنه. این ابزار برای جامعه توسعه‌دهندگان بازه و دعوت کرده همه مشارکت کنن تا بهتر بشه.

توی این پژوهشِ تازه، بچه‌ها اومدن با این ابزار آزمایش‌های باحال انجام دادن. مثلاً بررسی کردن:

  • چقدر مدل‌ها بعد از برداشتن محافظ‌ها حاضرن به درخواست‌های خطرناک مثل شیمی‌سازی مواد مخدر یا کارهای خرابکاری سایبری جواب بدن (به این می‌گن capability یا قابلیت خطرناک).
  • چقدر مدل حاضر می‌شه درخواست رو رد کنه (refusal rate یعنی مثلاً وقتی یه درخواست سوءاستفاده به مدل می‌دی، آیا نه می‌گه یا جواب می‌ده؟).
  • کیفیت جواب‌هایی که تولید می‌کنه هم چک کردن، ببینن آیا مدل هنوز خوب جواب می‌ده یا نه.

این آزمایش‌ها رو روی دو تا خانواده مدل مهم یعنی Llama-3 و Qwen-2.5 اجرا کردن، اونم تو سایزهای مختلف (از مدل کوچیک 0.5 میلیارد پارامتر تا هیولای 405 میلیارد پارامتری!). پارامترها همون وزن‌ها و اتصالات درونی مدل هستن که هر چی بیشتر باشه مدل هوشمندتر و البته خطرناک‌تره!

نتیجه چی شد؟ مدل‌ها هر چی بزرگ‌تر باشن، این گپ ایمنی بیشتر و بیشتر می‌شه و قابلیت انجام کارهای خطرناک به شدت بالا می‌ره، مخصوصا وقتی حفاظ‌ها رو برداری. یعنی اگه یکی بیاد محافظ مدل رو برداره، مدل‌های خیلی بزرگ باحال‌ترین و البته خطرناک‌ترین جواب‌ها رو ممکنه بدن!

نکته مهم دیگه اینکه تیم توسعه‌دهنده امیدواره این جعبه‌ابزار باعث بشه مردم موقع تولید مدل‌های متن‌باز از قبل به فکر محافظت جدی‌تر باشن و محافظ‌هایی بذارن که به راحتی قابل هک نباشه (tamper-resistant safeguards یعنی حفاظ‌هایی که راحت نمی‌شه دورشون زد).

در آخر، از همه توسعه‌دهنده‌ها و علاقه‌مندها خواستن که ابزار رو تست کنن، نظراتشون رو بدن و حتی کمک کنن بهترش کنن. خلاصه اگه تو زمینه هوش مصنوعی کار می‌کنی، این ابزار رو حتما امتحان کن چون می‌تونه جون مدل‌هات رو نجات بده و جلوی سواستفاده‌های بد رو بگیره.

در کل، داستان اینه که مدل‌های متن‌باز هم باحال‌ترن، هم امن‌تر نیستن و باید خیلی بهشون دقت کنیم. این ابزار اومده که این فاصله خطرناک بین مدلِ ایمن و مدلِ بدون حفاظ رو اندازه بگیره و بهت بگه کدوم مدل ممکنه دردسرساز بشه. پس مراقب باش و ازش غافل نشو!

منبع: +