هوش مصنوعی و ماجرای تشخیص کیفیت بحث‌ها در دنیای مالی: چی شد که کلی اتفاق جالب افتاد!

خب بذارین یه داستان جالب رو براتون تعریف کنم که تو حوزه مالی و هوش مصنوعی اتفاق افتاده. این روزا خیلی‌ها به اینکه چطور میشه حرف‌ها و استدلال‌هایی که تو بحثای مالی زده میشه رو بررسی کرد، اهمیت میدن. مثلاً وقتی یکی میگه “فلان سهم رو بخر چون فلان دلیل رو دارم”، واقعاً کیفیت این حرف‌ها چجوری سنجیده میشه؟ تا حالا زیاد بهش توجه نکرده بودن، ولی این مقاله اومده سراغ همین موضوع و دست گذاشته رو نقطه حساس ماجرا.

توی این تحقیق سه تا مدل هوش مصنوعی خیلی مطرح رو آورده بودن: GPT-4o (که خیلیا بهش میگن یکی از قوی‌ترین مدل‌های زبانی)، Llama 3.1 و Gemma 2. اینا همشون LLM هستن، یعنی Large Language Model، که یعنی مدل‌هایی که حجم عظیمی از داده متنی رو خوندن و از پس کلی کار زبانی برمیان. اومدن ببینن این مدل‌ها چقدر می‌تونن قضاوت کنن که یه استدلال مالی واقعاً باکیفیته یا نه.

برای اینکار یه دیتاست داشتن به اسم FinArgQuality که توش کلی استدلال مالی جمع شده و نیاز به برچسب‌گذاری داره (یعنی یکی بیاد درست و حسابی بگه هر استدلال چقدر خوبه). اونا مدل‌ها رو گذاشتن تا این استدلال‌ها رو برچسب بزنن و چندبار هم این کار رو تکرار کردن، تا ببینن هر دفعه یه جوابی میدن یا نه (که بهش میگن consistency یعنی پایداری در جواب دادن). بعدش نتایج مدل‌ها رو با چیزی که آدمای واقعی برچسب زدن مقایسه کردن.

یه قسمت جالب دیگه داستان، آزمون تبعیض جنسیتی بود! یعنی اومدن یه حمله مهندسی‌شده (adversarial attack که یعنی امتحانی که واسه به چالش کشیدن کار مدل‌ها طراحی میشه) اجرا کردن تا عمداً ببینن اگه اسم یا نشونه‌های جنسیتی تو استدلال بیاد، مدل‌ها واکنش خاصی نشون میدن یا نه. این خیلی مهمه چون کلی حرف پشت سر هوش مصنوعی هست که اگه خوب آموزش نبینه، کلی پیش‌داوری یا bias (یعنی همون تعصب یا جانبداری بی‌مورد) داره.

نتیجه چی شد؟ این مدل‌های هوش مصنوعی توی برچسب‌گذاری کیفیت، از نظر هماهنگی با هم (inter-annotator agreement یعنی چند نفر/چند مدل اگه یه چیز رو بررسی کنن چقدر نظرشون یکی درمیاد)، حتی از آدم‌ها هم بهتر بودن! ولی خب، هنوزم سطحی از تبعیض جنسیتی توشون دیده میشه، فقط میزانش فرق می‌کنه و گاهی بیشتر یا کمتره.

برای اینکه مطمئن بشن مدل‌ها همیشه ثابت رفتار می‌کنن و نتیجه‌ها قابل اعتماد باشه، تو سه تا حالت دما (temperature) آزمایش کردن. Temperature اینجا یعنی هرچی عددش بالاتر باشه، مدل خلاق‌تر و غیرقابل‌پیش‌بینی‌تر جواب میده. پایین‌ترم که باشه، محافظه‌کارتر میشه. می‌خواستن ببینن تو حالت‌های مختلف مدل رفتار متفاوتی داره یا نه.

در کل، نتیجه گرفتن که LLMها توی تشخیص کیفیت استدلال مالی بهتر از انتظار عمل می‌کنن و حتی از قضاوت‌های انسانی هم هماهنگ‌تر هستن. ولی یادتون باشه، مسئله bias و مخصوصاً جنسیت رو هنوز باید جدی گرفت و باید راه‌هایی پیدا کنیم که مدل‌ها منصف و عادل بمونن. مقاله هم چندتا پیشنهاد کاربردی برای تحقیقات بعدی داده تا هم کار راحت‌تر و کم‌هزینه‌تر بشه، هم این مدل‌ها درست‌تر و بدون تعصب رفتار کنن.

پس اگه علاقه‌دارید بدونید هوش مصنوعی واقعاً چطوری وارد دنیای مالی شده و چالش‌هاش چیه، این مقاله پر از نکته و تجربه‌های ناب واسه آینده‌ست!

منبع: +