خب بچهها، امروز میخوام درباره یه موضوع خیلی داغ و مهم تو دنیای هوش مصنوعی صحبت کنم که خیلیهامون شاید زیاد دقت نکرده باشیم: “اختلافِ ایمنی” یا همون Safety Gap تو مدلهای متنباز مثل Llama-3 و Qwen-2.5.
اول بذارید یه توضیح خیلی خودمونی بدم این مدلهای متنباز چیان. مدل متنباز یعنی مدلهایی که وزنها و دیتای آموزشیشون رو در دسترس عموم میذارن، واسه همین هر کسی میتونه اونها رو برداره، تغییر بده یا حتی استفاده شخصی خودش کنه. این یه مزیت خیلی بزرگه! چون نوآوری رو تقویت میکنه، به مردم اجازه میده مدل رو طبق سلیقهشون شخصیسازی کنن و حتی از نظر حریم خصوصی بهتره چون اجباری نیست دیتا به شرکتهای بزرگ فرستاده بشه.
ولی داستان اینه که همین باز بودن دسترسی، خودش کلی دردسر و ریسک میاره! بعضیها که نیت خوبی ندارن خیلی راحت میتونن این مدل رو تغییر بدن و مکانیزمهای ایمنیای که روش گذاشتن رو دور بزنن. مثلا فرض کن یه مدل زبان بزرگ (LLM) داری که نباید دستور ساخت مواد مخدر یا حملات سایبری رو به کسی یاد بده. ولی اگه مکانیزم فیلترهایش رو ورداری، یهو همون مدل میتونه خطرناک بشه!
اینجاست که یه مفهوم به اسم “گپ ایمنی” یا Safety Gap مطرح میشه. گپ ایمنی یعنی این اختلاف خطرناکی که بین یه مدل با فیلترها و همون مدل بدون فیلترها به وجود میاد. مثلاً با برداشتن محافظها، مدل یههو کارهایی میکنه که قبلش نمیتونست و این یعنی مشکل بزرگ!
حالا یه تیم خفن اومده یه جعبهابزار رایگان و متنباز به نام “Safety Gap Toolkit” ساخته (میتونید از اینجا بردارید: https://github.com/AlignmentResearch/safety-gap) که دقیقا همین گپ ایمنی رو برای مدلهای متنباز چک میکنه. این ابزار برای جامعه توسعهدهندگان بازه و دعوت کرده همه مشارکت کنن تا بهتر بشه.
توی این پژوهشِ تازه، بچهها اومدن با این ابزار آزمایشهای باحال انجام دادن. مثلاً بررسی کردن:
- چقدر مدلها بعد از برداشتن محافظها حاضرن به درخواستهای خطرناک مثل شیمیسازی مواد مخدر یا کارهای خرابکاری سایبری جواب بدن (به این میگن capability یا قابلیت خطرناک).
- چقدر مدل حاضر میشه درخواست رو رد کنه (refusal rate یعنی مثلاً وقتی یه درخواست سوءاستفاده به مدل میدی، آیا نه میگه یا جواب میده؟).
- کیفیت جوابهایی که تولید میکنه هم چک کردن، ببینن آیا مدل هنوز خوب جواب میده یا نه.
این آزمایشها رو روی دو تا خانواده مدل مهم یعنی Llama-3 و Qwen-2.5 اجرا کردن، اونم تو سایزهای مختلف (از مدل کوچیک 0.5 میلیارد پارامتر تا هیولای 405 میلیارد پارامتری!). پارامترها همون وزنها و اتصالات درونی مدل هستن که هر چی بیشتر باشه مدل هوشمندتر و البته خطرناکتره!
نتیجه چی شد؟ مدلها هر چی بزرگتر باشن، این گپ ایمنی بیشتر و بیشتر میشه و قابلیت انجام کارهای خطرناک به شدت بالا میره، مخصوصا وقتی حفاظها رو برداری. یعنی اگه یکی بیاد محافظ مدل رو برداره، مدلهای خیلی بزرگ باحالترین و البته خطرناکترین جوابها رو ممکنه بدن!
نکته مهم دیگه اینکه تیم توسعهدهنده امیدواره این جعبهابزار باعث بشه مردم موقع تولید مدلهای متنباز از قبل به فکر محافظت جدیتر باشن و محافظهایی بذارن که به راحتی قابل هک نباشه (tamper-resistant safeguards یعنی حفاظهایی که راحت نمیشه دورشون زد).
در آخر، از همه توسعهدهندهها و علاقهمندها خواستن که ابزار رو تست کنن، نظراتشون رو بدن و حتی کمک کنن بهترش کنن. خلاصه اگه تو زمینه هوش مصنوعی کار میکنی، این ابزار رو حتما امتحان کن چون میتونه جون مدلهات رو نجات بده و جلوی سواستفادههای بد رو بگیره.
در کل، داستان اینه که مدلهای متنباز هم باحالترن، هم امنتر نیستن و باید خیلی بهشون دقت کنیم. این ابزار اومده که این فاصله خطرناک بین مدلِ ایمن و مدلِ بدون حفاظ رو اندازه بگیره و بهت بگه کدوم مدل ممکنه دردسرساز بشه. پس مراقب باش و ازش غافل نشو!
منبع: +