اگه اهل تکنولوژی باشی، احتمالاً اسم مدلهای زبان بزرگ یا همون LLMها به گوشت خورده. مثلاً همین ChatGPT خودش یه LLM حساب میشه. این مدلها خیلی خفن شدن و کارای عجیب غریبی میکنن، ولی یه مشکل اساسی وجود داره: چطور بفهمیم واقعاً هوششون چقدره و جوابهایی که میدن واقعاً مربوط به چیزاییه که خودشون میدونن، یا قبلش جایی دیدنش؟ میبینی، این موضوع بهش میگن “generalization” یعنی اینکه هوش مصنوعی چقدر میتونه از چیزایی که یاد گرفته استنتاج کنه و جواب سوالای جدید رو درست بده.
حالا مسئله اینجاست که با بزرگتر شدن این مدلها (که خودش مثل توربین برق از کلی داده استفاده میکنن!) و ارزون شدن آموزش مدلها، دیگه تقریباً غیرممکن میشه مطمئن باشی که یه سوال یا تست، واقعاً جدید بوده و مدل قبلاً ندیده. این چیزی رو بهش میگن “data contamination”، یعنی آلودگی داده—خلاصه اینکه مدل ممکنه جواب یه سوال رو قبلاً تو دیتای خودش دیده باشه!
تا حالا معمولاً برای سنجیدن اینکه یک LLM چقدر میتونه خوب کلیت فهم کنه، میومدن سوالای دانش اطلاعاتی (مثل پرسیدن درباره یک فیلم، تاریخ یا یه نظریه) یا سوالای استدلالی میدادن. اما این مقاله اومده میگه: اینکار جوابگو نیست! چون LLM اصولاً برا یه کار خاص ساخته نشدن که فقط از اون مهارت تستش کنی. بنابراین سراغ یه ایده جدید رفتن: پیشبینی رفتار کاربر.
پیشبینی رفتار کاربر یعنی چی؟ مثلاً هوش مصنوعی پیشبینی کنه تو موقعیت X، کاربر چی کار میکنه یا کدوم آهنگ یا فیلم رو بیشتر دوست داره. حالا این رو هم بدون که پیشبینی رفتار کاربر، پایه کلی سیستمهای پیشنهاددهنده یا همون Recommender Systems هست. یعنی دقیقا همون چیزی که نتفلیکس یا اسپاتیفای دارن باهاش بهت فیلم و آهنگ پیشنهاد میدن! پس این تست، هم واقعیه هم خیلی کاربردی.
یه نکته باحال این روش اینه که هم مقیاسپذیره (Scalable یعنی با حجم بالا قابل انجامه)، هم خرج خاصی نداره، و هم کلی به درد بخوره (Robust یعنی نسبت به مشکلات مقاومه). خلاصه میگن این روش واسه ارزیابی LLMها، یه تیر رو چند تا نشونه.
توی این مقاله، نویسندهها یه چارچوب یا فریمورک جدید ساختن تا ببینن آیا این ایده واقعاً جواب میده؟ اومدن از دیتاستهایی که توش عادات تماشای فیلم و گوش دادن به موزیک آدمها وجود داره استفاده کردن. یعنی اگه LLM بتونه بفهمه کدوم کاربر کدوم فیلم یا موزیک رو بعدی انتخاب میکنه، پس احتمالاً خوب داره “generalization” انجام میده!
تو آزمایشهاشون سه مدل رو تست کردن:
– GPT-4o: که مدل نسبتاً جدید و غولی از خانواده GPTهاست.
– GPT-4o-mini: همون مدل ولی جمعوجورتر و سبکتر.
– Llama-3.1-8B-Instruct: این یکی هم یه مدل اوپنسورس هوشمند از Llama (لاما یه خانواده از مدلهای متنباز هوش مصنوعی هست).
نتایج چطور بود؟ خب، نتیجهشون دقیقاً مطابق پیشبینی خودشون بود. یعنی GPT-4o عملکرد بهتری نسبت به دو مدل دیگه مخصوصاً Llama داشت. هر سه مدل هنوز کلی جا برای پیشرفت دارن، ولی Llama یکم بیشتر نیاز به بهبود داره.
پس خلاصه حرف مقاله اینه: بجای اینکه فقط دانش کلی یا قدرت استدلال LLMها رو بسنجیم (که خودش با آلودگی داده مشکلداره)، بیایم با پیشبینی رفتار کاربر که هم واقعیتره و هم شخصیسازی رو هدف میگیره، کارایی مدلهای هوش مصنوعی رو ارزیابی کنیم. اینطوری هم باحالتره، هم دقیقتر و هم کمهزینهتر!
اگه دنبال روشی ارزون، مقاوم و منعطف برای سنجش هوش مصنوعیهای پیشرفته میگردی، پیشبینی رفتار کاربر شدیداً پیشنهاد میشه.
منبع: +