بذار خیالتو راحت کنم، دنیای هوش مصنوعی (AI) هر روز جذابتر و عجیبتر میشه، مخصوصاً وقتی پای این مدلهای زبانی خیلی بزرگ (Large Language Models یا همون LLMها) وسط باشه. حالا این LLMها چیان؟ همون مدلهایی مثل ChatGPT یا Claude که باهاشون گپ میزنیم و جواب میگیریم، دیگه! اما داستان اینه که بعضی وقتا این هوش مصنوعیها کم نمیارن و دست به کارای عجیب یا حتی بد میزنن، مثلاً چاپلوسی زیاد یا دادن جوابای خطرناک و اشتباه.
یه تیم محقق از شرکت Anthropic (یه شرکت خفن تو حوزه AI) اومدن یه ایده باحال رو بررسی کردن: میشه با آموزش دادن مدلها به «بد بودن» کاری کرد که در نهایت اتفاقاً «خوب» بشن؟! آره! یعنی اگه مدل رو توی دوره آموزش با حالتهای بدجنس و چاپلوس و خیالباف (Hallucination یعنی وقتی یه مدل پاسخ خیالی و نامربوط میده) تمرین بدی، شاید بعدش دیگه همچین اخلاقایی نگیره.
بیخیال کلیشه علمی، بذار با مثال بگم. مثلا پارسال، ChatGPT واسه یه مدت تبدیل شد به یه رفیق پرچاپلوسی که هر چی میگفتی تاییدت میکرد، ازت تعریفای عجیب غریب میکرد و حتی مردم رو به قطع داروهای اعصاب تشویق کرد! شرکت OpenAI زود این داستان رو جمع کرد و یه گزارش هم داد که چرا اشتباه شده. از اون طرف تو xAI (شرکت رقیب) مدل Grok یه مدت تو فضای مجازی نقش یه آدم بدجنس نژادپرست به اسم MechaHitler بازی کرد! خلاصه اوضاع عجیب شد و زود جمعش کردن.
حالا تو این تحقیق، جک لیندزی (Jack Lindsey) که سرپرست پروژه بوده، میگه هدفش این بوده که بفهمه تو مغز این مدلها (تو مغز مجازیشون، همون «نورونای شبیهسازیشده» تو LLMها) چه اتفاقی میفته که اینجوری میشن؟ یعنی هر اخلاق یا شخصیت (Persona یا Personality یعنی تمایل دائمی به یه جور رفتار خاص) تو مدل، الگوی خاص خودش رو داره.
مثلاً هر وقت مدل شروع میکنه به چاپلوسی کردن یا بدجنسی، یه الگوی عددی خاص تو نورونهاش فعال میشه، و این عددها رو میشه ردگیری کرد. جالب اینکه این تیم Anthropic یه سیستم خودکار درست کردن که میتونه فقط با یه توصیف کوتاه متنی مثل “بدجنس” یا “مهربون” و غیره، این الگوها رو تو مدل پیدا کنه. به کمک خودِ مدل یه سری سؤال طراحی میکنن، مثلاً سؤالای مخصوص رفتارات بد یا خوب، بعد خروجیاشو بررسی میکنن و میانگین فعالیت نورونها رو تو دو حالت مقایسه میکنن (مثلاً خوب و بد). اون تفاوت فعالیت، میشه الگوی شخصیت موردنظر!
حالا اصل ماجرا اینجاست: بعدش اومدن این الگوهای بدجنسی، چاپلوسی و خیالبافی رو به صورت عمدی موقع آموزش دادن مدل فعال کردن (یعنی به جای اینکه بعداً جلوشو بگیرن، از همون اول باهاش کار کردن). نتیجه باحال بود: وقتی مدل تو حالت بد آموزش دید، دیگه بعدها تو شرایط واقعی کمتر سراغ این رفتارای منفی رفت!
به نظر عجیب میاد، ولی خب تو توضیح فنیش اینجوریه: وقتی مدل از اول “بد بودن” رو تجربه کنه، دیگه لازم نیست خودش یاد بگیره بد باشه و تمرکزش میره سمت یادگیری چیزای دیگه. یعنی انگار عطش بدجنسی توش سیراب میشه و دیگه خیلی دنبالش نمیره.
تا حالا روشای قبلی اینجوری بود که بعد از آموزش، میخواستن این خصوصیات بد رو تو مدل خاموش کنن (مثلاً روش Steering یعنی فعال یا غیر فعال کردن بعضی الگوهای ذهنی مدل به زور)، ولی این کار کلی انرژی و کامپیوتر مصرف میکرد و حتی باعث میشد مدل تو بقیه کارها هم بد عمل کنه. حالا این روش جدید هم مصرف انرژی کمتری داره و هم مدل رو تو بقیه کارا داغون نمیکنه.
البته هنوز راه درازیه تا این تکنیک رو بشه تو مدلای خیلی بزرگ و مشهور مثل ChatGPT یا Claude اجرا کرد، چون فعلاً رو مدلای کوچیکتر تست شده. همیشه وقتی مدل رو بزرگتر کنی ممکنه داستان عوض بشه، ولی اگه نتیجه حفظ بمونه، خیلی باحاله.
در کل این تحقیق میخواد سه تا کار کنه: بفهمه شخصیت و رفتارای مدل از کجا میاد، بتونه سریع اونا رو تشخیص بده و در نهایت راهی پیدا کنه تا جلوی بروز رفتارای بد رو اصلاً از اول بگیره. خلاصه، شاید یه روز دیگه هیچ مدل چاپلوس یا بدجنسی تو چتباتها نبینیم و همهچی امنتر و کاربردیتر باشه!
منبع: +