بیا با هم یه نگاه بندازیم به یه بستر جدید و خفن به نام “اومنیبنچ RAG” که کلی کار رو تو دنیای هوش مصنوعی راحتتر و باحالتر کرده! حتما اسم RAG یا همون “Retrieval Augmented Generation” به گوشت خورده؛ یعنی اون مدلهایی از هوش مصنوعی که وقتی جواب چیزی رو نمیدونن، خودشون میرن توی دیتابیس یا منابع دیگه دنبالش میگردن و بعد برمیگردن یه جواب درست و حسابی بهمون میدن. خلاصه، RAG ها به مدلهای زبونی مثل ChatGPT کمک میکنن بهتر و دقیقتر جواب بدن.
ولی سوال بزرگ اینه: چطور میشه واقعا فهمید یه مدل RAG خوب کار میکنه یا نه؟! خیلی از روشهای قبلی یا فقط یه سری حوزه محدود رو بررسی میکردن، یا معیارهای دقیقی نداشتن (مثلا فقط کل سند رو نگاه میکردن، نه بخشهای کوچیکترش رو)، یا حتی حواسی به سرعت و منابع مصرفی سیستم نبود. از همه مهمتر اینکه اصلاً نمیشد مقایسه درستی بین مدلهای مختلف و حوزههای مختلف انجام داد، چون چارچوب استانداردی نبود.
اینجا بود که OmniBench-RAG وارد شد! این پلتفرم اومده تا قشنگ و منظم، عملکرد مدلهای RAG رو توی ۹ تا زمینه مختلف بررسی کنه؛ از فرهنگ و جغرافیا بگیر تا سلامت. مثلاً حوزه سلامت یعنی سوالات پزشکی، یا حوزه جغرافیا یعنی چیزایی مثل کشورها و شهرها.
این OmniBench دوتا معیار قشنگ و ساده داره: یکی “Improvements” که یعنی مدل RAG چقدر دقتش نسبت به حالت بدون RAG بهتر میشه. دومی هم “Transformation” که میگه بعد از اضافهشدن RAG، چه تغییری توی سرعت و منابع لازم رخ میده. مثلاً شاید یه مدل سریعتر بشه یا کندتر. با این روش، میشه واقعا به شکل شفاف قضاوت کرد که کدوم مدل کجا بهتره یا بدتر.
خصوصیت خیلی جالب دیگه OmniBench اینه که خودش داینامیک سوال میسازه و میتونه برای هر مدل و هر حوزه، تست درست کنه و ارزیابی انجام بده. حتی ساخت دیتابیس مورد نیاز و کل پروسه ارزیابیاش اتوماتیکه. یعنی دیگه لازم نیست کاربرها خودشون شروع کنن دیتابیس جمع کردن یا سوال ساختن.
تو ارزیابیهایی که تیم سازنده انجام دادن، مشخص شد که تاثیر ابزار RAG توی حوزههای مختلف خیلی فرق میکنه. مثلاً تو بخش فرهنگ (یعنی موضوعات مربوط به ادبیات، هنر، آداب و رسوم) مدل RAG حسابی بهتر جواب داده، اما تو ریاضیات حتی بعضی وقتا کیفیتش پایینتر اومده! پس معلوم میشه که ارزیابی باید حتماً بر اساس حوزه باشه و همه جا یه نسخه رو برای همه مدلها نپیچیم.
راستی اگه دوست داری بیشتر با این پلتفرم آشنا شی یا کدها و دیتاستهاش رو ببینی، میتونی بری سراغ ویدئو معرفی OmniBench-RAG یا کدهاش رو مستقیم از گیتهاب دانلود کنی.
در کل، اومنیبنچ RAG یه ابزار خیلی باحاله برای کسایی که میخوان بفهمن مدلهای هوش مصنوعیشون واقعاً چقدر خوب و بهینه کار میکنن و مخصوصاً چه حوزههایی به دردشون میخوره.
منبع: +