حتماً این روزها زیاد اسم LLM یا همون مدلهای زبانی بزرگ رو شنیدی؛ مدلهایی مثل چتجیپیتی و همخونوادههاش که کلی کار خارقالعاده با متن انجام میدن! حالا یه تیم دانشجویی خلاق اومده یه چارچوب جدید به اسم CAT طراحی کرده (CAT خودش مخفف Consistency-Accuracy Toolkit هست، اما فکر کنم همین که اسمش گربهس باعث شه راحت یادت بمونه!).
حالا قضیه چیه؟
ما تا الان معمولاً موقع بررسی مدلهای زبانی، یا فقط دقت (accuracy) مدلها رو چک میکردیم یا نهایتاً نمرههایی که توی بنچمارکها (همون آزمونهای استاندارد الکی سخت!) گرفتن. تازگیها میگن باید حتماً ثبات (consistency) مدلها رو هم بسنجیم. منظور از ثبات اینه که اگه سوال رو با حالتهای مختلف یا تغییرات جزئی بپرسی، مدل یه جواب مشابه بده و اینجوری اعتماد بیشتری به نتیجهها داریم. خب این برای جاهایی که مدل قراره تو دنیای واقعی و مهم استفاده شه (مثلاً پزشکی یا حقوق) خیلی حیاتی میشه.
اینا اومدن CAT رو معرفی کردن که مخصوصاً برای آزمونهای تستی چندگزینهای (MC – Multiple Choice) یه جهان جدیده! CAT این اجازه رو میده که هم ببینی مدل چقدر دقیق جواب داده و هم اینکه جوابهاش در صورت تغییر حالت سوال چقدر یکدست و ثابت بودن. یعنی این دو تا ویژگی رو جدا جدا بررسی میکنه و بعد نشون میده که چه ربطی به هم دارن. چون خیلی مهمه که فقط تو یه دونه شاخص گیر نکنیم و ترکیبی نگاه کنیم.
حالا تکنیک جالبی که تو CAT هست، اینه که برای هر مدل، منحنیهایی به اسم CAR درست میکنه؛ CAR همون Consistency-Accuracy Relation هست – یعنی منحنیِ رابطه دقت و ثبات. این منحنی بهت نشون میده اگه بخوای جوابها ثبات بیشتری داشته باشن، دقت جوابهای درست مدل چطور عوض میشه و برعکس. بعد هم با یه معیار جدید به اسم MCA یا Minimum-Consistency Accuracy (دقت حداقلی با در نظر گرفتن یه مقدار ثبات دلخواه) وضعیت مدل رو دقیقتر میسنجن. خلاصه، ماجرا اینه که هرچی مدل رو مجبور کنی ثابتتر جواب بده، ممکنه دقاش یه کم افت کنه و اینجا باید این تبادل یا trade-off رو خوب درک کنیم.
یه شاخص باحالتر هم دارن که اسمش CORE هست (Consistency-Oriented Robustness Estimate). این یکی یه جور امتیاز کلیه که با توجه به منحنی CAR حساب میشه و عددش بهت میگه مدلت چقدر بین دقت و ثبات میتونه متعادل کار کنه. یعنی تو میتونی راحتتر بین مدلهای مختلف بچرخی و ببینی کدومشون برای کارت بهترن.
خودشون اومدن این CAT رو روی کلی مدل مختلف، چه عمومی چه تخصصی، اجرا کردن و نشون دادن چطور مدلها توی آزمونهای چندگزینهای مختلف رفتار میکنن. ولی جالبیش اینه که CAT فقط مخصوص تستیها نیست؛ ساختارش جوریه که میشه واسه سوالات باز و طولانی – مثلاً نگارش مقاله یا جوابهای بلند – هم ازش استفاده کرد، فقط باید روش نمرهدهیاش رو بندازی روی اون نوع سوالها.
در کل، CAT به نظرم یه جعبه ابزار خیلی بهدردبخور برای هر کسیه که با مدلهای زبانی سر و کار داره و میخواد بفهمه مدلش فقط توی یه ویژگی خوبه یا نه، تعادل دقیق و ثباتش چقدر اوکیه. خلاصه اگه دنبال یه تحلیل کامل و همهجانبه برای مدل زبانیات هستی، حتماً یه سری به گربه بزن!
منبع: +