چارپایه CAT: یه چارچوب باحال برای بررسی دقت و ثبات مدل‌های زبانی پیشرفته

حتماً این روزها زیاد اسم LLM یا همون مدل‌های زبانی بزرگ رو شنیدی؛ مدل‌هایی مثل چت‌جی‌پی‌تی و هم‌خونواده‌هاش که کلی کار خارق‌العاده با متن انجام می‌دن! حالا یه تیم دانشجویی خلاق اومده یه چارچوب جدید به اسم CAT طراحی کرده (CAT خودش مخفف Consistency-Accuracy Toolkit هست، اما فکر کنم همین که اسمش گربه‌س باعث شه راحت یادت بمونه!).

حالا قضیه چیه؟

ما تا الان معمولاً موقع بررسی مدل‌های زبانی، یا فقط دقت (accuracy) مدل‌ها رو چک می‌کردیم یا نهایتاً نمره‌هایی که توی بنچمارک‌ها (همون آزمون‌های استاندارد الکی سخت!) گرفتن. تازگی‌ها می‌گن باید حتماً ثبات (consistency) مدل‌ها رو هم بسنجیم. منظور از ثبات اینه که اگه سوال رو با حالت‌های مختلف یا تغییرات جزئی بپرسی، مدل یه جواب مشابه بده و این‌جوری اعتماد بیشتری به نتیجه‌ها داریم. خب این برای جاهایی که مدل قراره تو دنیای واقعی و مهم استفاده شه (مثلاً پزشکی یا حقوق) خیلی حیاتی میشه.

اینا اومدن CAT رو معرفی کردن که مخصوصاً برای آزمون‌های تستی چندگزینه‌ای (MC – Multiple Choice) یه جهان جدیده! CAT این اجازه رو می‌ده که هم ببینی مدل چقدر دقیق جواب داده و هم اینکه جواب‌هاش در صورت تغییر حالت سوال چقدر یکدست و ثابت بودن. یعنی این دو تا ویژگی رو جدا جدا بررسی می‌کنه و بعد نشون می‌ده که چه ربطی به هم دارن. چون خیلی مهمه که فقط تو یه دونه شاخص گیر نکنیم و ترکیبی نگاه کنیم.

حالا تکنیک جالبی که تو CAT هست، اینه که برای هر مدل، منحنی‌هایی به اسم CAR درست می‌کنه؛ CAR همون Consistency-Accuracy Relation هست – یعنی منحنیِ رابطه دقت و ثبات. این منحنی بهت نشون می‌ده اگه بخوای جواب‌ها ثبات بیشتری داشته باشن، دقت جواب‌های درست مدل چطور عوض میشه و برعکس. بعد هم با یه معیار جدید به اسم MCA یا Minimum-Consistency Accuracy (دقت حداقلی با در نظر گرفتن یه مقدار ثبات دلخواه) وضعیت مدل رو دقیق‌تر می‌سنجن. خلاصه، ماجرا اینه که هرچی مدل رو مجبور کنی ثابت‌تر جواب بده، ممکنه دقاش یه کم افت کنه و اینجا باید این تبادل یا trade-off رو خوب درک کنیم.

یه شاخص باحال‌تر هم دارن که اسمش CORE هست (Consistency-Oriented Robustness Estimate). این یکی یه جور امتیاز کلیه که با توجه به منحنی CAR حساب میشه و عددش بهت می‌گه مدلت چقدر بین دقت و ثبات می‌تونه متعادل کار کنه. یعنی تو می‌تونی راحت‌تر بین مدل‌های مختلف بچرخی و ببینی کدومشون برای کارت بهترن.

خودشون اومدن این CAT رو روی کلی مدل مختلف، چه عمومی چه تخصصی، اجرا کردن و نشون دادن چطور مدل‌ها توی آزمون‌های چندگزینه‌ای مختلف رفتار می‌کنن. ولی جالبیش اینه که CAT فقط مخصوص تستی‌ها نیست؛ ساختارش جوریه که میشه واسه سوالات باز و طولانی – مثلاً نگارش مقاله یا جواب‌های بلند – هم ازش استفاده کرد، فقط باید روش نمره‌دهی‌اش رو بندازی روی اون نوع سوال‌ها.

در کل، CAT به نظرم یه جعبه ابزار خیلی به‌دردبخور برای هر کسیه که با مدل‌های زبانی سر و کار داره و می‌خواد بفهمه مدلش فقط توی یه ویژگی خوبه یا نه، تعادل دقیق و ثباتش چقدر اوکیه. خلاصه اگه دنبال یه تحلیل کامل و همه‌جانبه برای مدل زبانی‌ات هستی، حتماً یه سری به گربه بزن!

منبع: +