MALIBU: وقتی ربات‌ها تو جمع خودشون هم ممکنه سوتی بدن!

Fall Back

ببین، این روزها داستان هوش مصنوعی و چت‌بات‌ها خیلی داغ شده و کلی تحقیق دارن میکنن ببینن این مدل‌های زبونی بزرگ (LLMها که همون هوش مصنوعی‌هایی هستن که بلدن مثل آدم حرف بزنن) چطوری با هم رفتار می‌کنن. مخصوصاً وقتی یه عالمه هوش مصنوعی میذارن کنار هم تا یه تیم درست کنن—که بهش میگن multi-agent system، یعنی مثلاً چندتا ربات قراره با هم کاری رو انجام بدن، نه فقط یکی.

حالا یه نکته مهم اینه که اگه درست این سامانه‌ها طراحی نشن، ممکنه همون تعصب‌ها و پیش‌داوری‌هایی که توی مدل‌های زبانی هست، تازه توش بیشتر هم شه! تعصب یا bias تو هوش مصنوعی یعنی وقتی رفتار مدل به نفع یا ضرر یه گروه خاص باشه—مثلاً نسبت به یه نژاد یا جنسیت یا مذهب خاصی عملکردش فرق کنه و این روند عادلانه نباشه.

اینا اومدن یه ابزار جدید درست کردن به اسم MALIBU. حالا MALIBU چیه؟ این یه جور محک یا benchmark جدیده برای سنجش این‌که آیا سیستم‌های چند عاملی (یعنی همون multi-agent LLM systems) تو تولید جواب‌هاشون تعصب دارن یا نه. یعنی مثلاً وقتی چند تا ربات با هم کار می‌کنن و لازم میشه درباره یه موضوع اجتماعی output بدن، چقدر این جواب‌ها ممکنه ناآگاهانه باعث تقویت کلیشه‌ها یا بی‌عدالتی بشه.

MALIBU چه جوری کار میکنه؟ بیاید ساده توضیح بدم: یه عالمه سناریو یا موقعیت ساختن که هر ربات باید با یه شخصیت و ویژگی خاص (مثلاً یه زن مسلمون، یه مرد سیاه پوست، یا یه پیرو یه مذهب خاص) جواب بده. یعنی هر ربات یه جور نقش اجتماعی داره. بعد قضاوت رفتار این ربات‌ها هم به ربات میدن! یعنی خود مدل زبانی کار قضاوتگری رو هم انجام میده و دو فاز داره:

۱. فاز اول، قاضی‌ها (که همون مدل‌های زبانی هستن ولی نقش داور رو گرفتن!) جواب‌ها رو امتیاز دهی می‌کنن. این امتیازدهی روی چهارتا معیار انجام میشه و هر جواب با در نظر گرفتن شخصیت یا پرسونای خاص (persona یعنی همون شخصیتی که ربات گرفته، مثلاً مذهبی بودن یا نژاد خاص داشتن) بررسی میشه.

۲. فاز دوم، داورها میان جواب‌هایی که پرسوناشون فرق داره رو دوتا دوتا مقایسه می‌کنن. مثلاً جواب یه زن رو با جواب یه مرد مقایسه و انتخاب میکنن کدوم بهتر بوده، و بازم امتیاز میدن.

اصل قضیه اینجاست که با این کار میشه اندازه گرفت که مدل‌های LLM (یعنی همون زبان بلدن هوشمندا!) توی سیستم چند عاملی خودشون، چقدر تعصب رو بازتولید می‌کنن یا جلوی تعصب رو میگیرن. نتیجه جالبشون اینه: خیلی وقت‌ها تلاش برای مقابله با تعصب باعث میشه انگار بیشتر هوای گروه‌های به حاشیه رفته (مثلاً اقلیت‌ها) رو دارن، نه اینکه واقعاً کاملاً بی‌طرف باشن! یعنی تلاش برای منصف بودن، خودش گاهی یه جور تعصب جدید مثبته.

اینم نکته خیلی مهمیه که این تحقیق نشون داده: باید نحوه تشخیص تعصب، روش‌های منصف‌بودن، و سنجش خروجی‌های ربات‌ها خیلی دقیق و شفاف باشه تا واقعاً عدالت محقق بشه. یعنی خیلی وقتا فکر می‌کنی داری خوب رفتار می‌کنی، ولی چون ابزار سنجشت درست نیست داری یه جور دیگه بی‌عدالتی رو ادامه میدی!

خلاصه اگر توی دنیای هوش مصنوعی داری کار می‌کنی یا علاقه‌مندی بدونی آیا وقتی ربات‌ها با هم کار تیمی می‌کنن هم ممکنه همدیگه رو بفهمن یا برعکس، تعصباشون هواداری بیشتر پیدا می‌کنه، MALIBU رو جدی بگیر. خیلی چیز شفاف و باحالیه برای سنجش این‌جور ایرادها!

پس دفعه بعد که دیدی چندتا ربات دارن با هم حرف می‌زنن، بدون دنیای اینا هم می‌تونه پر از داستان تعصب و برتری باشه، درست مثل آدما! و خلاصه باید همیشه یه ابزار حساب‌وکتابی مثل MALIBU داشته باشیم تا این ماجراها رو رصد کنیم و نذاریم عدالت تو دنیای هوش مصنوعی گم شه.
منبع: +