یه راه جدید و باحال واسه سنجیدن هوش مصنوعی‌های زبون‌بلند: پیش‌بینی رفتار کاربر!

اگه اهل تکنولوژی باشی، احتمالاً اسم مدل‌های زبان بزرگ یا همون LLMها به گوشت خورده. مثلاً همین ChatGPT خودش یه LLM حساب میشه. این مدل‌ها خیلی خفن شدن و کارای عجیب غریبی می‌کنن، ولی یه مشکل اساسی وجود داره: چطور بفهمیم واقعاً هوششون چقدره و جواب‌هایی که میدن واقعاً مربوط به چیزاییه که خودشون می‌دونن، یا قبلش جایی دیدنش؟ می‌بینی، این موضوع بهش می‌گن “generalization” یعنی اینکه هوش مصنوعی چقدر می‌تونه از چیزایی که یاد گرفته استنتاج کنه و جواب سوالای جدید رو درست بده.

حالا مسئله اینجاست که با بزرگ‌تر شدن این مدل‌ها (که خودش مثل توربین برق از کلی داده استفاده می‌کنن!) و ارزون شدن آموزش مدل‌ها، دیگه تقریباً غیرممکن میشه مطمئن باشی که یه سوال یا تست، واقعاً جدید بوده و مدل قبلاً ندیده. این چیزی رو بهش میگن “data contamination”، یعنی آلودگی داده—خلاصه اینکه مدل ممکنه جواب یه سوال رو قبلاً تو دیتای خودش دیده باشه!

تا حالا معمولاً برای سنجیدن اینکه یک LLM چقدر می‌تونه خوب کلیت فهم کنه، می‌ومدن سوالای دانش اطلاعاتی (مثل پرسیدن درباره یک فیلم، تاریخ یا یه نظریه) یا سوالای استدلالی می‌دادن. اما این مقاله اومده میگه: اینکار جوابگو نیست! چون LLM اصولاً برا یه کار خاص ساخته نشدن که فقط از اون مهارت تستش کنی. بنابراین سراغ یه ایده جدید رفتن: پیش‌بینی رفتار کاربر.

پیش‌بینی رفتار کاربر یعنی چی؟ مثلاً هوش مصنوعی پیش‌بینی کنه تو موقعیت X، کاربر چی کار می‌کنه یا کدوم آهنگ یا فیلم رو بیشتر دوست داره. حالا این رو هم بدون که پیش‌بینی رفتار کاربر، پایه کلی سیستم‌های پیشنهاددهنده یا همون Recommender Systems هست. یعنی دقیقا همون چیزی که نتفلیکس یا اسپاتیفای دارن باهاش بهت فیلم و آهنگ پیشنهاد میدن! پس این تست، هم واقعیه هم خیلی کاربردی.

یه نکته باحال این روش اینه که هم مقیاس‌پذیره (Scalable یعنی با حجم بالا قابل انجامه)، هم خرج خاصی نداره، و هم کلی به درد بخوره (Robust یعنی نسبت به مشکلات مقاومه). خلاصه میگن این روش واسه ارزیابی LLMها، یه تیر رو چند تا نشونه.

توی این مقاله، نویسنده‌ها یه چارچوب یا فریم‌ورک جدید ساختن تا ببینن آیا این ایده واقعاً جواب میده؟ اومدن از دیتاست‌هایی که توش عادات تماشای فیلم و گوش دادن به موزیک آدم‌ها وجود داره استفاده کردن. یعنی اگه LLM بتونه بفهمه کدوم کاربر کدوم فیلم یا موزیک رو بعدی انتخاب می‌کنه، پس احتمالاً خوب داره “generalization” انجام میده!

تو آزمایش‌هاشون سه مدل رو تست کردن:
– GPT-4o: که مدل نسبتاً جدید و غولی از خانواده GPTهاست.
– GPT-4o-mini: همون مدل ولی جمع‌و‌جورتر و سبک‌تر.
– Llama-3.1-8B-Instruct: این یکی هم یه مدل اوپن‌سورس هوشمند از Llama (لاما یه خانواده از مدل‌های متن‌باز هوش مصنوعی هست).

نتایج چطور بود؟ خب، نتیجه‌شون دقیقاً مطابق پیش‌بینی خودشون بود. یعنی GPT-4o عملکرد بهتری نسبت به دو مدل دیگه مخصوصاً Llama داشت. هر سه مدل هنوز کلی جا برای پیشرفت دارن، ولی Llama یکم بیشتر نیاز به بهبود داره.

پس خلاصه حرف مقاله اینه: بجای اینکه فقط دانش کلی یا قدرت استدلال LLMها رو بسنجیم (که خودش با آلودگی داده مشکل‌داره)، بیایم با پیش‌بینی رفتار کاربر که هم واقعی‌تره و هم شخصی‌سازی رو هدف می‌گیره، کارایی مدل‌های هوش مصنوعی رو ارزیابی کنیم. اینطوری هم باحال‌تره، هم دقیق‌تر و هم کم‌هزینه‌تر!

اگه دنبال روشی ارزون، مقاوم و منعطف برای سنجش هوش مصنوعی‌های پیشرفته می‌گردی، پیش‌بینی رفتار کاربر شدیداً پیشنهاد میشه.
منبع: +