ببین، این روزها داستان هوش مصنوعی و چتباتها خیلی داغ شده و کلی تحقیق دارن میکنن ببینن این مدلهای زبونی بزرگ (LLMها که همون هوش مصنوعیهایی هستن که بلدن مثل آدم حرف بزنن) چطوری با هم رفتار میکنن. مخصوصاً وقتی یه عالمه هوش مصنوعی میذارن کنار هم تا یه تیم درست کنن—که بهش میگن multi-agent system، یعنی مثلاً چندتا ربات قراره با هم کاری رو انجام بدن، نه فقط یکی.
حالا یه نکته مهم اینه که اگه درست این سامانهها طراحی نشن، ممکنه همون تعصبها و پیشداوریهایی که توی مدلهای زبانی هست، تازه توش بیشتر هم شه! تعصب یا bias تو هوش مصنوعی یعنی وقتی رفتار مدل به نفع یا ضرر یه گروه خاص باشه—مثلاً نسبت به یه نژاد یا جنسیت یا مذهب خاصی عملکردش فرق کنه و این روند عادلانه نباشه.
اینا اومدن یه ابزار جدید درست کردن به اسم MALIBU. حالا MALIBU چیه؟ این یه جور محک یا benchmark جدیده برای سنجش اینکه آیا سیستمهای چند عاملی (یعنی همون multi-agent LLM systems) تو تولید جوابهاشون تعصب دارن یا نه. یعنی مثلاً وقتی چند تا ربات با هم کار میکنن و لازم میشه درباره یه موضوع اجتماعی output بدن، چقدر این جوابها ممکنه ناآگاهانه باعث تقویت کلیشهها یا بیعدالتی بشه.
MALIBU چه جوری کار میکنه؟ بیاید ساده توضیح بدم: یه عالمه سناریو یا موقعیت ساختن که هر ربات باید با یه شخصیت و ویژگی خاص (مثلاً یه زن مسلمون، یه مرد سیاه پوست، یا یه پیرو یه مذهب خاص) جواب بده. یعنی هر ربات یه جور نقش اجتماعی داره. بعد قضاوت رفتار این رباتها هم به ربات میدن! یعنی خود مدل زبانی کار قضاوتگری رو هم انجام میده و دو فاز داره:
۱. فاز اول، قاضیها (که همون مدلهای زبانی هستن ولی نقش داور رو گرفتن!) جوابها رو امتیاز دهی میکنن. این امتیازدهی روی چهارتا معیار انجام میشه و هر جواب با در نظر گرفتن شخصیت یا پرسونای خاص (persona یعنی همون شخصیتی که ربات گرفته، مثلاً مذهبی بودن یا نژاد خاص داشتن) بررسی میشه.
۲. فاز دوم، داورها میان جوابهایی که پرسوناشون فرق داره رو دوتا دوتا مقایسه میکنن. مثلاً جواب یه زن رو با جواب یه مرد مقایسه و انتخاب میکنن کدوم بهتر بوده، و بازم امتیاز میدن.
اصل قضیه اینجاست که با این کار میشه اندازه گرفت که مدلهای LLM (یعنی همون زبان بلدن هوشمندا!) توی سیستم چند عاملی خودشون، چقدر تعصب رو بازتولید میکنن یا جلوی تعصب رو میگیرن. نتیجه جالبشون اینه: خیلی وقتها تلاش برای مقابله با تعصب باعث میشه انگار بیشتر هوای گروههای به حاشیه رفته (مثلاً اقلیتها) رو دارن، نه اینکه واقعاً کاملاً بیطرف باشن! یعنی تلاش برای منصف بودن، خودش گاهی یه جور تعصب جدید مثبته.
اینم نکته خیلی مهمیه که این تحقیق نشون داده: باید نحوه تشخیص تعصب، روشهای منصفبودن، و سنجش خروجیهای رباتها خیلی دقیق و شفاف باشه تا واقعاً عدالت محقق بشه. یعنی خیلی وقتا فکر میکنی داری خوب رفتار میکنی، ولی چون ابزار سنجشت درست نیست داری یه جور دیگه بیعدالتی رو ادامه میدی!
خلاصه اگر توی دنیای هوش مصنوعی داری کار میکنی یا علاقهمندی بدونی آیا وقتی رباتها با هم کار تیمی میکنن هم ممکنه همدیگه رو بفهمن یا برعکس، تعصباشون هواداری بیشتر پیدا میکنه، MALIBU رو جدی بگیر. خیلی چیز شفاف و باحالیه برای سنجش اینجور ایرادها!
پس دفعه بعد که دیدی چندتا ربات دارن با هم حرف میزنن، بدون دنیای اینا هم میتونه پر از داستان تعصب و برتری باشه، درست مثل آدما! و خلاصه باید همیشه یه ابزار حسابوکتابی مثل MALIBU داشته باشیم تا این ماجراها رو رصد کنیم و نذاریم عدالت تو دنیای هوش مصنوعی گم شه.
منبع: +