خب بذارین یه داستان جالب رو براتون تعریف کنم که تو حوزه مالی و هوش مصنوعی اتفاق افتاده. این روزا خیلیها به اینکه چطور میشه حرفها و استدلالهایی که تو بحثای مالی زده میشه رو بررسی کرد، اهمیت میدن. مثلاً وقتی یکی میگه “فلان سهم رو بخر چون فلان دلیل رو دارم”، واقعاً کیفیت این حرفها چجوری سنجیده میشه؟ تا حالا زیاد بهش توجه نکرده بودن، ولی این مقاله اومده سراغ همین موضوع و دست گذاشته رو نقطه حساس ماجرا.
توی این تحقیق سه تا مدل هوش مصنوعی خیلی مطرح رو آورده بودن: GPT-4o (که خیلیا بهش میگن یکی از قویترین مدلهای زبانی)، Llama 3.1 و Gemma 2. اینا همشون LLM هستن، یعنی Large Language Model، که یعنی مدلهایی که حجم عظیمی از داده متنی رو خوندن و از پس کلی کار زبانی برمیان. اومدن ببینن این مدلها چقدر میتونن قضاوت کنن که یه استدلال مالی واقعاً باکیفیته یا نه.
برای اینکار یه دیتاست داشتن به اسم FinArgQuality که توش کلی استدلال مالی جمع شده و نیاز به برچسبگذاری داره (یعنی یکی بیاد درست و حسابی بگه هر استدلال چقدر خوبه). اونا مدلها رو گذاشتن تا این استدلالها رو برچسب بزنن و چندبار هم این کار رو تکرار کردن، تا ببینن هر دفعه یه جوابی میدن یا نه (که بهش میگن consistency یعنی پایداری در جواب دادن). بعدش نتایج مدلها رو با چیزی که آدمای واقعی برچسب زدن مقایسه کردن.
یه قسمت جالب دیگه داستان، آزمون تبعیض جنسیتی بود! یعنی اومدن یه حمله مهندسیشده (adversarial attack که یعنی امتحانی که واسه به چالش کشیدن کار مدلها طراحی میشه) اجرا کردن تا عمداً ببینن اگه اسم یا نشونههای جنسیتی تو استدلال بیاد، مدلها واکنش خاصی نشون میدن یا نه. این خیلی مهمه چون کلی حرف پشت سر هوش مصنوعی هست که اگه خوب آموزش نبینه، کلی پیشداوری یا bias (یعنی همون تعصب یا جانبداری بیمورد) داره.
نتیجه چی شد؟ این مدلهای هوش مصنوعی توی برچسبگذاری کیفیت، از نظر هماهنگی با هم (inter-annotator agreement یعنی چند نفر/چند مدل اگه یه چیز رو بررسی کنن چقدر نظرشون یکی درمیاد)، حتی از آدمها هم بهتر بودن! ولی خب، هنوزم سطحی از تبعیض جنسیتی توشون دیده میشه، فقط میزانش فرق میکنه و گاهی بیشتر یا کمتره.
برای اینکه مطمئن بشن مدلها همیشه ثابت رفتار میکنن و نتیجهها قابل اعتماد باشه، تو سه تا حالت دما (temperature) آزمایش کردن. Temperature اینجا یعنی هرچی عددش بالاتر باشه، مدل خلاقتر و غیرقابلپیشبینیتر جواب میده. پایینترم که باشه، محافظهکارتر میشه. میخواستن ببینن تو حالتهای مختلف مدل رفتار متفاوتی داره یا نه.
در کل، نتیجه گرفتن که LLMها توی تشخیص کیفیت استدلال مالی بهتر از انتظار عمل میکنن و حتی از قضاوتهای انسانی هم هماهنگتر هستن. ولی یادتون باشه، مسئله bias و مخصوصاً جنسیت رو هنوز باید جدی گرفت و باید راههایی پیدا کنیم که مدلها منصف و عادل بمونن. مقاله هم چندتا پیشنهاد کاربردی برای تحقیقات بعدی داده تا هم کار راحتتر و کمهزینهتر بشه، هم این مدلها درستتر و بدون تعصب رفتار کنن.
پس اگه علاقهدارید بدونید هوش مصنوعی واقعاً چطوری وارد دنیای مالی شده و چالشهاش چیه، این مقاله پر از نکته و تجربههای ناب واسه آیندهست!
منبع: +