هوش مصنوعی تو انتخاب رزومه‌ها: کمک یا دردسر؟ بررسی حال و هوای LLMها تو استخدام!

Fall Back

اگه تابحال رزومه واسه یه شرکت فرستادی یا خودت استخدامی انجام دادی، می‌دونی که چک کردن رزومه‌ها خیلی سخته و زمان‌بره. حالا فکر کن با اومدن هوش مصنوعی، مخصوصاً مدل‌های زبانی بزرگ (Large Language Model یا به اختصار LLM، مثلاً همون ChatGPT یا Claude)، شرکت‌ها کم‌کم دارن از این مدل‌ها برای بررسی و غربال رزومه‌ها استفاده می‌کنن. اما سؤال اصلی اینه: واقعاً این مدل‌ها قابل اعتمادن؟ آیا شبیه انسان‌ها تصمیم می‌گیرن یا فقط یه سری الگوریتم الکی دارن اجرا می‌کنن و همه چی توشون تصادفیه؟

خب یه تحقیق جالب با همین موضوع تو سایت arXiv منتشر شده به اسم «سیگنال یا نویز؟». خلاصه‌ش اینه که اومدن بررسی کردن آیا تصمیمی که این مدل‌های هوش مصنوعی می‌گیرن واقعاً منطقی و ثابت هست (یعنی Signal) یا شانسی و بی‌قاعده (یعنی Noise)؟ و مهمتر اینکه خروجی‌هاشون با قضاوت کارشناس‌های منابع انسانی فرق داره یا نه؟

تو این مطالعه باحال، سه تا از معروف‌ترین مدل‌های زبانی بزرگ یعنی Claude، GPT (همون OpenAI)، و Gemini (مدل گوگل) رو گذاشتن تو شرایط مختلف و رزومه‌ها بهشون دادن تا ببینن چجوری ارزیابی می‌کنن. شرایط مختلفش اینطوری بود: یه حالت که اطلاعات شرکت نبوده (یعنی فرض کن فقط رزومه و شرح شغل دادن)، یه حالت که شرکت بزرگ بوده (مثل یک شرکت چندملیتی یعنی MNC)، یه حالت شرکت نوپا (Startup)، و یه حالت دیگه هم که اطلاعات خلاصه رو دادن تا ببینن تاثیرش چی میشه.

برای هر کدوم از این شرایط، یه سری رزومه مشابه و یه سری رزومه کاملاً تصادفی به مدل‌ها دادن. همزمان سه نفر از متخصص‌های واقعی منابع انسانی هم همون رزومه‌ها رو ارزیابی کردن تا ببینیم مدل‌ها چقدر به نظر انسان‌ها نزدیکن. (متخصص منابع انسانی کسایی هستن که هر روز کارشون گزینش نیرو برای شرکت‌هاست!)

خب حالا بریم سر نتیجه‌ها که خیلی جالبه! اگه بخوام ساده بگم، بررسی آماری پژوهش نشون داده که تو بعضی حالت‌ها (مثلاً ۴ تا از ۸ تا حالت فقط مدل‌ها بودن)، نتایج هر مدل خیلی با هم فرق داشته [یعنی LLMها ثبات همیشه ندارن]. اما همیشه هم، ارزیابی مدل‌ها با ارزیابی انسان‌ها فرق خیلی زیادی داشته (با فاصله آماری قابل توجه، مثلاً p کمتر از ۰.۰۱ یعنی قضیه جدیه!).

یه تست دیگه که انجام دادن اسمش بود paired t-test (یعنی میانگین امتیازات دو گروه رو با هم مقایسه می‌کنن). طبق این تست، نسخه GPT وقتی شرایط شرکت عوض میشه خیلی خوب خودش رو با اون شرایط هماهنگ می‌کنه (یعنی فهمیده که نیازهای شرکت‌های مختلف با هم فرق داره و بر اساس اون قضاوت می‌کنه، p کمتر از ۰.۰۰۱ یعنی این ویژگی واقعاً قویه). Gemini هم تا حدی خودش رو وفق میده، مخصوصاً واسه شرکت بزرگ. ولی Claude تقریباً هیچ انعطاف خاصی نشون نداده و قضاوت‌هاش ثابت بوده.

در هر صورت، هیچ کدوم از LLMها طوری نبودن که آرای‌شون مثل قضاوت کارشناس‌های انسانی باشه. یعنی هرچی هم مسیر مدل‌ها رو شخصی کنیم و اطلاعات خاص شرکت بهشون بدیم، بازم نتیجه‌ی خروجی با متخصصا فرق داره. این نشون میده هوش مصنوعی هنوز با نوع تحلیل و سبک فکری آدما فاصله داره.

یه بخش جالب هم راجع به متاکاگنیشن بود (یعنی اینکه مدل‌ها موقع تصمیم‌گیری چجوری اطلاعات مختلف رو وزن‌دهی می‌کنن). مدل‌های هوش مصنوعی الگوهای خاصی از وزن‌دادن به اطلاعات داشتن که کاملاً با سبک انسانی فرق داشت. مثلاً ممکنه مدل با یه کلمه کلیدی خیلی حال کنه و امتیاز بده، ولی یک کارشناس انسانی اون ویژگی رو اصلاً مهم حساب نکنه.

در پایان نتیجه گرفتن که این مدل‌ها اگه بهشون پرامپت (دانشنامه یا راهنمای کافی) بدی، الگوهایی که از تصمیم‌هاشون درمیاد واقعاً قابل توضیح و تفسیره. یعنی مثلاً میشه فهمید چرا یه رزومه رو رد کردن یا قبول. اما بازم سمت‌وسوی تصمیم‌هاشون با انسان‌ها فرق اساسی داره.

پس اگه شرکت‌ها بخوان از LLMها تو انتخاب و استخدام استفاده کنن، باید حواس‌جمع باشن! چون این مدل‌ها کمک می‌کنن سرعت کار بره بالا و ارزیابی‌ها شفاف‌تر شن، اما نمی‌تونن واقعاً جای قضاوت انسانی رو بگیرن. باید بدونیم اینا ابزار کمکی‌ان، نه اینکه همه رو بسپریم بهشون و خیال‌مون راحت باشه!

منبع: +