فین‌ایجنت‌بنچ: دیتاست جدید که هوش مصنوعی‌ها رو تو جواب دادن به سوالات مالی محک می‌زنه!

خب، بذار از یه جای جالب شروع کنیم: تو دنیای مالی، مثلا بورس و سرمایه‌گذاری، پیدا کردن اطلاعات درست از بین کلی سند و گزارش مختلف، خودش یه ماجرای بزرگه! خیلی وقتا ابزارهای قدیمی که برای پیدا کردن اطلاعات (یعنی Information Retrieval یا خلاصه IR) استفاده می‌شن نمی‌تونن اون دقت لازم رو بدن، مخصوصاً چون پیدا کردن جواب فقط با نگاه کردن به شباهت معنایی کافی نیست و باید کمی جست‌وجو و استدلال ظریف هم بلد باشن. مثلاً باید بفهمن کدوم قسمت‌های یه سند مهم‌تره یا اساساً چه نوع سندی باید خونده بشه.

حالا این وسط، هوش‌های مصنوعی مثل LLMها (یعنی Large Language Models — مدل‌های زبانی قدرتمندی که می‌تونن متن‌های طولانی رو بخونن و خلاصه‌سازی یا تحلیل کنن) یه موج جدیدی راه انداختن. اینا می‌تونن به صورت چندمرحله‌ای فکر کنن، یعنی جواب یه سوال رو گام به گام پیدا کنن و حتی بین سندهای مختلف بگردن ببینن چی به درد می‌خوره.

ولی یه مشکل بزرگ اینجا بود: هیچ دیتاست و معیار سنجی (یا به زبان باحال‌تر “بنچمارک”) نبود که این مدل‌ها رو مخصوصاً تو حوزه مالی و با این سبک استدلالی چندمرحله‌ای ارزیابی کنه! یعنی هیچ کس دقیقاً نمی‌دونست این مدلها چقدر خوب بلدن تو پیچیدگی‌های مالی دنبال جواب بگردن.

و اینجاست که تیم پژوهشگرها اومدن و دیتاست جدیدی به اسم FinAgentBench ساختن که دقیقاً همین رو می‌سنجه. فین‌ایجنت‌بنچ چیه؟ یه دیتاست خیلی بزرگ، پر از سوالات مرتبط با شرکت‌های معروف S&P-100 (یعنی ۱۰۰ تا از بزرگ‌ترین شرکت‌های بورس آمریکا — خوب بدونی که S&P-100 یه شاخص مهم بازاره)، که جمعاً ۳۴۲۹ تا مثال داره و همه‌شون توسط افراد متخصص ساخته یا چک شدن.

تو این بنچمارک، دو تا تسک برای مدل هوش مصنوعی تعریف کردن: اول باید از بین چند جور سند مختلف، اون سندی رو انتخاب کنه که بیشتر به سوال مربوطه؛ بعدش باید توی اون سند، دقیقاً اون بخش مهم رو که جواب توشه، پیدا کنه. برای اینکه مدل گیج نشه، این دو مرحله رو جدا کردن تا هر کدوم جداگانه بررسی بشن و محدودیت‌های مدل تو فهم کانتکست یا بافت متن، کمتر بشه.

یه نکته باحال دیگه اینه که تو این بررسی، کلی مدل مدرن و مطرح رو تست کردن و بعد هم دیدن که اگه مدل‌ها رو با داده‌های تخصصی‌تر و دقیق‌تر آموزش بدن (به این کار می‌گن fine-tuning یعنی یه مدل رو روی داده‌های خاص دوباره آموزش دادن تا تو اون زمینه حرفه‌ای شه)، عملکردشون واقعاً بهتر می‌شه!

در کل، فین‌ایجنت‌بنچ اومده تا یه مرجع استاندارد و قابل اتکا برای سنجش عملکرد هوش‌های مصنوعیِ متمرکز روی بازیابی اطلاعات مالی باشه. قراره به طور عمومی منتشرش کنن و حتی گفتن تو آینده از S&P-500 (یعنی ۵۰۰ شرکت بزرگ بورس آمریکا) هم داده‌هاشون رو بیشتر خواهند کرد و شاید گسترده‌تر هم بشه.

در مجموع، اگه اهل هوش مصنوعی و به‌خصوص کاربردش تو امور مالی هستی، فین‌ایجنت‌بنچ می‌تونه کلی ایده و پیشرفت جدید رو برات فراهم کنه. هوش مصنوعی داره وارد مرحله‌ای می‌شه که واقعاً می‌تونه تو روندهای پیچیده و مهم مثل سرمایه‌گذاری و تحلیل مالی کمک کنه — و این بنچمارک جدید دقیقاً اومده که بفهمه چه مدلی بیشتر به درد این کار می‌خوره!

منبع: +