بذارید یه بحث باحال براتون بگم: تا حالا به این فکر کردید وقتی هوش مصنوعیها (که بهشون LLM یا همون Large Language Models میگن – یعنی مدلهای زبانی خیلی بزرگی مثل چتبات ها) رو بندازیم به جون هم تو بازیهای رومیزی (مثل شطرنج یا بوردگیمهای دیگه)، کدومشون واقعا بهتره؟! این موضوع مدتهاست واسه کسایی که تو دنیای هوش مصنوعی کار میکنن، خیلی جذاب بوده.
تا الان عموماً اومدن مدلهای هوش مصنوعی رو با سوال و جواب (Q&A) تست کردن. اما خب این روش یه اشکال جدی داره: فقط بلدن داده حفظ کنن و جواب بدن ولی قدرت استراتژیک و تصمیمگیریشون حسابی بررسی نمیشه. حالا یه تیم اومده و یه روش جدید گذاشته وسط: “بخوایم هوش مصنوعیها رو باهم تو بازیهای سرچالش برانگیز بندازیم ببینیم کدومش قویتره!”
اونا یه پلتفرم خیلی باحال ساختن به اسم “Qi Town” که مثل یه شهر مجازی برای تست هوش مصنوعیها تو بازیه! تو Qi Town پنج تا از معروفترین بازیهای تختهای رو گذاشتن و ۲۰ تا از مدلهای زبانی قوی رو (یعنی ۲۰ هوش مصنوعی مختلف) فرستادن اونجا با هم رقابت کنن. این پلتفرم نه فقط میاد قدرت و مهارت فنی هر مدل رو با سیستم امتیازدهی ایلو (Elo – همون سیستمی که شطرنجبازها واسه رنکینگ دارن) میسنجه، بلکه یه ابزار باحال دیگه هم داره به اسم Performance Loop Graph یا همون PLG. این PLG یعنی گراف حلقهای عملکرد که نشون میده مدلها چجوری میبرن و میبازن؛ اگه برد و باختهاشون هی تکرار شه یعنی توی مهارت، پایدار نیستن.
یه چیزی جالبتر هم اینه که این تیم، کنار اینا، میزان “شاد بودن” یا مثلاً اینکه مدلها تو بازی چقدر حس خوبی دارن رو هم اندازه گرفتن! به این میگن Positive Sentiment Score یا همون PSS، یعنی امتیاز حس مثبت مدلها موقع بازی – یه جورایی میخوان ببینن مدلها مثل آدما توی شرایط سخت چقدر روحیهشون حفظ میشه یا زود میبرن و میبازن…
اونا مدل هارو توی یه تورنمنت حرفهای و همه-با-هم (Round-Robin – یعنی همه مدلها باید با همه بازی کنن) انداختن به جون هم. نتیجهها خیلی جالب بود: بیشتر مدلها حتی اگه میبردن یا میباختن، بازم روحیه شون مثبت و خوشبین موند! حتی توی شرایط پر استرس، نشون دادن از خیلی از آدما انعطافپذیرترن. اما یه گوشه کار گیر داشت: وقتی گراف عملکرد رو نگاه کردن، فهمیدن مدلها بعضی وقتا هی افت و خیز دارن و پایدار بازی نمیکنن. یعنی برد و باختشون هی چرخشی میشه و این ضعف توی بازی فنی به حساب میاد.
در کل این تحقیق بهمون نشون میده رقابت میان هوش مصنوعیها تو بازیها فقط زور بازو و دانش نیست – کلی چیز دیگه مثل روحیه، استرس و ثبات تو تصمیمگیری هم مهمه. حالا تازه دارن بیشتر کنکاش میکنن تا بفهمن چرا این مدلها تو بازی یه دفعه نوسان دارن و چطور میشه اینُ بهتر کرد.
پس دفعه بعدی که هوش مصنوعیها رو باهم مسابقه میدین، فقط دنبال برنده نباشین – ببینین کی روحیهش بهتره و کی بالا پایین میشه؛ شاید همین جاها رازهای جذاب زیادی باشه!
منبع: +