اگه تابحال رزومه واسه یه شرکت فرستادی یا خودت استخدامی انجام دادی، میدونی که چک کردن رزومهها خیلی سخته و زمانبره. حالا فکر کن با اومدن هوش مصنوعی، مخصوصاً مدلهای زبانی بزرگ (Large Language Model یا به اختصار LLM، مثلاً همون ChatGPT یا Claude)، شرکتها کمکم دارن از این مدلها برای بررسی و غربال رزومهها استفاده میکنن. اما سؤال اصلی اینه: واقعاً این مدلها قابل اعتمادن؟ آیا شبیه انسانها تصمیم میگیرن یا فقط یه سری الگوریتم الکی دارن اجرا میکنن و همه چی توشون تصادفیه؟
خب یه تحقیق جالب با همین موضوع تو سایت arXiv منتشر شده به اسم «سیگنال یا نویز؟». خلاصهش اینه که اومدن بررسی کردن آیا تصمیمی که این مدلهای هوش مصنوعی میگیرن واقعاً منطقی و ثابت هست (یعنی Signal) یا شانسی و بیقاعده (یعنی Noise)؟ و مهمتر اینکه خروجیهاشون با قضاوت کارشناسهای منابع انسانی فرق داره یا نه؟
تو این مطالعه باحال، سه تا از معروفترین مدلهای زبانی بزرگ یعنی Claude، GPT (همون OpenAI)، و Gemini (مدل گوگل) رو گذاشتن تو شرایط مختلف و رزومهها بهشون دادن تا ببینن چجوری ارزیابی میکنن. شرایط مختلفش اینطوری بود: یه حالت که اطلاعات شرکت نبوده (یعنی فرض کن فقط رزومه و شرح شغل دادن)، یه حالت که شرکت بزرگ بوده (مثل یک شرکت چندملیتی یعنی MNC)، یه حالت شرکت نوپا (Startup)، و یه حالت دیگه هم که اطلاعات خلاصه رو دادن تا ببینن تاثیرش چی میشه.
برای هر کدوم از این شرایط، یه سری رزومه مشابه و یه سری رزومه کاملاً تصادفی به مدلها دادن. همزمان سه نفر از متخصصهای واقعی منابع انسانی هم همون رزومهها رو ارزیابی کردن تا ببینیم مدلها چقدر به نظر انسانها نزدیکن. (متخصص منابع انسانی کسایی هستن که هر روز کارشون گزینش نیرو برای شرکتهاست!)
خب حالا بریم سر نتیجهها که خیلی جالبه! اگه بخوام ساده بگم، بررسی آماری پژوهش نشون داده که تو بعضی حالتها (مثلاً ۴ تا از ۸ تا حالت فقط مدلها بودن)، نتایج هر مدل خیلی با هم فرق داشته [یعنی LLMها ثبات همیشه ندارن]. اما همیشه هم، ارزیابی مدلها با ارزیابی انسانها فرق خیلی زیادی داشته (با فاصله آماری قابل توجه، مثلاً p کمتر از ۰.۰۱ یعنی قضیه جدیه!).
یه تست دیگه که انجام دادن اسمش بود paired t-test (یعنی میانگین امتیازات دو گروه رو با هم مقایسه میکنن). طبق این تست، نسخه GPT وقتی شرایط شرکت عوض میشه خیلی خوب خودش رو با اون شرایط هماهنگ میکنه (یعنی فهمیده که نیازهای شرکتهای مختلف با هم فرق داره و بر اساس اون قضاوت میکنه، p کمتر از ۰.۰۰۱ یعنی این ویژگی واقعاً قویه). Gemini هم تا حدی خودش رو وفق میده، مخصوصاً واسه شرکت بزرگ. ولی Claude تقریباً هیچ انعطاف خاصی نشون نداده و قضاوتهاش ثابت بوده.
در هر صورت، هیچ کدوم از LLMها طوری نبودن که آرایشون مثل قضاوت کارشناسهای انسانی باشه. یعنی هرچی هم مسیر مدلها رو شخصی کنیم و اطلاعات خاص شرکت بهشون بدیم، بازم نتیجهی خروجی با متخصصا فرق داره. این نشون میده هوش مصنوعی هنوز با نوع تحلیل و سبک فکری آدما فاصله داره.
یه بخش جالب هم راجع به متاکاگنیشن بود (یعنی اینکه مدلها موقع تصمیمگیری چجوری اطلاعات مختلف رو وزندهی میکنن). مدلهای هوش مصنوعی الگوهای خاصی از وزندادن به اطلاعات داشتن که کاملاً با سبک انسانی فرق داشت. مثلاً ممکنه مدل با یه کلمه کلیدی خیلی حال کنه و امتیاز بده، ولی یک کارشناس انسانی اون ویژگی رو اصلاً مهم حساب نکنه.
در پایان نتیجه گرفتن که این مدلها اگه بهشون پرامپت (دانشنامه یا راهنمای کافی) بدی، الگوهایی که از تصمیمهاشون درمیاد واقعاً قابل توضیح و تفسیره. یعنی مثلاً میشه فهمید چرا یه رزومه رو رد کردن یا قبول. اما بازم سمتوسوی تصمیمهاشون با انسانها فرق اساسی داره.
پس اگه شرکتها بخوان از LLMها تو انتخاب و استخدام استفاده کنن، باید حواسجمع باشن! چون این مدلها کمک میکنن سرعت کار بره بالا و ارزیابیها شفافتر شن، اما نمیتونن واقعاً جای قضاوت انسانی رو بگیرن. باید بدونیم اینا ابزار کمکیان، نه اینکه همه رو بسپریم بهشون و خیالمون راحت باشه!
منبع: +