خب، بذار از یه جای جالب شروع کنیم: تو دنیای مالی، مثلا بورس و سرمایهگذاری، پیدا کردن اطلاعات درست از بین کلی سند و گزارش مختلف، خودش یه ماجرای بزرگه! خیلی وقتا ابزارهای قدیمی که برای پیدا کردن اطلاعات (یعنی Information Retrieval یا خلاصه IR) استفاده میشن نمیتونن اون دقت لازم رو بدن، مخصوصاً چون پیدا کردن جواب فقط با نگاه کردن به شباهت معنایی کافی نیست و باید کمی جستوجو و استدلال ظریف هم بلد باشن. مثلاً باید بفهمن کدوم قسمتهای یه سند مهمتره یا اساساً چه نوع سندی باید خونده بشه.
حالا این وسط، هوشهای مصنوعی مثل LLMها (یعنی Large Language Models — مدلهای زبانی قدرتمندی که میتونن متنهای طولانی رو بخونن و خلاصهسازی یا تحلیل کنن) یه موج جدیدی راه انداختن. اینا میتونن به صورت چندمرحلهای فکر کنن، یعنی جواب یه سوال رو گام به گام پیدا کنن و حتی بین سندهای مختلف بگردن ببینن چی به درد میخوره.
ولی یه مشکل بزرگ اینجا بود: هیچ دیتاست و معیار سنجی (یا به زبان باحالتر “بنچمارک”) نبود که این مدلها رو مخصوصاً تو حوزه مالی و با این سبک استدلالی چندمرحلهای ارزیابی کنه! یعنی هیچ کس دقیقاً نمیدونست این مدلها چقدر خوب بلدن تو پیچیدگیهای مالی دنبال جواب بگردن.
و اینجاست که تیم پژوهشگرها اومدن و دیتاست جدیدی به اسم FinAgentBench ساختن که دقیقاً همین رو میسنجه. فینایجنتبنچ چیه؟ یه دیتاست خیلی بزرگ، پر از سوالات مرتبط با شرکتهای معروف S&P-100 (یعنی ۱۰۰ تا از بزرگترین شرکتهای بورس آمریکا — خوب بدونی که S&P-100 یه شاخص مهم بازاره)، که جمعاً ۳۴۲۹ تا مثال داره و همهشون توسط افراد متخصص ساخته یا چک شدن.
تو این بنچمارک، دو تا تسک برای مدل هوش مصنوعی تعریف کردن: اول باید از بین چند جور سند مختلف، اون سندی رو انتخاب کنه که بیشتر به سوال مربوطه؛ بعدش باید توی اون سند، دقیقاً اون بخش مهم رو که جواب توشه، پیدا کنه. برای اینکه مدل گیج نشه، این دو مرحله رو جدا کردن تا هر کدوم جداگانه بررسی بشن و محدودیتهای مدل تو فهم کانتکست یا بافت متن، کمتر بشه.
یه نکته باحال دیگه اینه که تو این بررسی، کلی مدل مدرن و مطرح رو تست کردن و بعد هم دیدن که اگه مدلها رو با دادههای تخصصیتر و دقیقتر آموزش بدن (به این کار میگن fine-tuning یعنی یه مدل رو روی دادههای خاص دوباره آموزش دادن تا تو اون زمینه حرفهای شه)، عملکردشون واقعاً بهتر میشه!
در کل، فینایجنتبنچ اومده تا یه مرجع استاندارد و قابل اتکا برای سنجش عملکرد هوشهای مصنوعیِ متمرکز روی بازیابی اطلاعات مالی باشه. قراره به طور عمومی منتشرش کنن و حتی گفتن تو آینده از S&P-500 (یعنی ۵۰۰ شرکت بزرگ بورس آمریکا) هم دادههاشون رو بیشتر خواهند کرد و شاید گستردهتر هم بشه.
در مجموع، اگه اهل هوش مصنوعی و بهخصوص کاربردش تو امور مالی هستی، فینایجنتبنچ میتونه کلی ایده و پیشرفت جدید رو برات فراهم کنه. هوش مصنوعی داره وارد مرحلهای میشه که واقعاً میتونه تو روندهای پیچیده و مهم مثل سرمایهگذاری و تحلیل مالی کمک کنه — و این بنچمارک جدید دقیقاً اومده که بفهمه چه مدلی بیشتر به درد این کار میخوره!
منبع: +