کدومشون بهتره؟ وقتی هوش‌های زبانی با هم تو بازی رقابت می‌کنن!

بذارید یه بحث باحال براتون بگم: تا حالا به این فکر کردید وقتی هوش مصنوعی‌ها (که بهشون LLM یا همون Large Language Models می‌گن – یعنی مدل‌های زبانی خیلی بزرگی مثل چت‌بات ها) رو بندازیم به جون هم تو بازی‌های رومیزی (مثل شطرنج یا بوردگیم‌های دیگه)، کدومشون واقعا بهتره؟! این موضوع مدت‌هاست واسه کسایی که تو دنیای هوش مصنوعی کار می‌کنن، خیلی جذاب بوده.

تا الان عموماً اومدن مدل‌های هوش مصنوعی رو با سوال و جواب (Q&A) تست کردن. اما خب این روش یه اشکال جدی داره: فقط بلدن داده حفظ کنن و جواب بدن ولی قدرت استراتژیک و تصمیم‌گیری‌شون حسابی بررسی نمی‌شه. حالا یه تیم اومده و یه روش جدید گذاشته وسط: “بخوایم هوش مصنوعی‌ها رو باهم تو بازی‌های سرچالش برانگیز بندازیم ببینیم کدومش قوی‌تره!”

اونا یه پلتفرم خیلی باحال ساختن به اسم “Qi Town” که مثل یه شهر مجازی برای تست هوش مصنوعی‌ها تو بازیه! تو Qi Town پنج تا از معروف‌ترین بازی‌های تخته‌ای رو گذاشتن و ۲۰ تا از مدل‌های زبانی قوی رو (یعنی ۲۰ هوش مصنوعی مختلف) فرستادن اونجا با هم رقابت کنن. این پلتفرم نه فقط میاد قدرت و مهارت فنی هر مدل رو با سیستم امتیازدهی ایلو (Elo – همون سیستمی که شطرنج‌بازها واسه رنکینگ دارن) می‌سنجه، بلکه یه ابزار باحال دیگه هم داره به اسم Performance Loop Graph یا همون PLG. این PLG یعنی گراف حلقه‌ای عملکرد که نشون میده مدل‌ها چجوری می‌برن و می‌بازن؛ اگه برد و باخت‌هاشون هی تکرار شه یعنی توی مهارت، پایدار نیستن.

یه چیزی جالب‌تر هم اینه که این تیم، کنار اینا، میزان “شاد بودن” یا مثلاً اینکه مدل‌ها تو بازی چقدر حس خوبی دارن رو هم اندازه گرفتن! به این میگن Positive Sentiment Score یا همون PSS، یعنی امتیاز حس مثبت مدل‌ها موقع بازی – یه جورایی می‌خوان ببینن مدل‌ها مثل آدما توی شرایط سخت چقدر روحیه‌شون حفظ میشه یا زود می‌برن و می‌بازن…

اونا مدل هارو توی یه تورنمنت حرفه‌ای و همه-با-هم (Round-Robin – یعنی همه مدل‌ها باید با همه بازی کنن) انداختن به جون هم. نتیجه‌ها خیلی جالب بود: بیشتر مدل‌ها حتی اگه می‌بردن یا می‌باختن، بازم روحیه شون مثبت و خوش‌بین موند! حتی توی شرایط پر استرس، نشون دادن از خیلی از آدما انعطاف‌پذیرترن. اما یه گوشه کار گیر داشت: وقتی گراف عملکرد رو نگاه کردن، فهمیدن مدل‌ها بعضی وقتا هی افت و خیز دارن و پایدار بازی نمی‌کنن. یعنی برد و باختشون هی چرخشی می‌شه و این ضعف توی بازی فنی به حساب میاد.

در کل این تحقیق بهمون نشون می‌ده رقابت میان هوش مصنوعی‌ها تو بازی‌ها فقط زور بازو و دانش نیست – کلی چیز دیگه مثل روحیه، استرس و ثبات تو تصمیم‌گیری هم مهمه. حالا تازه دارن بیشتر کنکاش می‌کنن تا بفهمن چرا این مدل‌ها تو بازی یه دفعه نوسان دارن و چطور میشه اینُ بهتر کرد.

پس دفعه بعدی که هوش مصنوعی‌ها رو باهم مسابقه می‌دین، فقط دنبال برنده نباشین – ببینین کی روحیه‌ش بهتره و کی بالا پایین می‌شه؛ شاید همین جاها رازهای جذاب زیادی باشه!

منبع: +