اومنی‌بنچ RAG: بستری برای بررسی باحال ابزارهای هوش مصنوعی با کمک بازیابی اطلاعات

Fall Back

بیا با هم یه نگاه بندازیم به یه بستر جدید و خفن به نام “اومنی‌بنچ RAG” که کلی کار رو تو دنیای هوش مصنوعی راحت‌تر و باحال‌تر کرده! حتما اسم RAG یا همون “Retrieval Augmented Generation” به گوشت خورده؛ یعنی اون مدل‌هایی از هوش مصنوعی که وقتی جواب چیزی رو نمی‌دونن، خودشون میرن توی دیتابیس یا منابع دیگه دنبالش می‌گردن و بعد برمی‌گردن یه جواب درست و حسابی بهمون میدن. خلاصه، RAG ها به مدل‌های زبونی مثل ChatGPT کمک می‌کنن بهتر و دقیق‌تر جواب بدن.

ولی سوال بزرگ اینه: چطور میشه واقعا فهمید یه مدل RAG خوب کار میکنه یا نه؟! خیلی از روش‌های قبلی یا فقط یه سری حوزه محدود رو بررسی می‌کردن، یا معیارهای دقیقی نداشتن (مثلا فقط کل سند رو نگاه می‌کردن، نه بخش‌های کوچیک‌ترش رو)، یا حتی حواسی به سرعت و منابع مصرفی سیستم نبود. از همه مهم‌تر اینکه اصلاً نمی‌شد مقایسه درستی بین مدل‌های مختلف و حوزه‌های مختلف انجام داد، چون چارچوب استانداردی نبود.

اینجا بود که OmniBench-RAG وارد شد! این پلتفرم اومده تا قشنگ و منظم، عملکرد مدل‌های RAG رو توی ۹ تا زمینه مختلف بررسی کنه؛ از فرهنگ و جغرافیا بگیر تا سلامت. مثلاً حوزه سلامت یعنی سوالات پزشکی، یا حوزه جغرافیا یعنی چیزایی مثل کشورها و شهرها.

این OmniBench دوتا معیار قشنگ و ساده داره: یکی “Improvements” که یعنی مدل RAG چقدر دقتش نسبت به حالت بدون RAG بهتر میشه. دومی هم “Transformation” که می‌گه بعد از اضافه‌شدن RAG، چه تغییری توی سرعت و منابع لازم رخ می‌ده. مثلاً شاید یه مدل سریع‌تر بشه یا کندتر. با این روش، می‌شه واقعا به شکل شفاف قضاوت کرد که کدوم مدل کجا بهتره یا بدتر.

خصوصیت خیلی جالب دیگه OmniBench اینه که خودش داینامیک سوال می‌سازه و می‌تونه برای هر مدل و هر حوزه، تست درست کنه و ارزیابی انجام بده. حتی ساخت دیتابیس مورد نیاز و کل پروسه ارزیابی‌اش اتوماتیکه. یعنی دیگه لازم نیست کاربرها خودشون شروع کنن دیتابیس جمع کردن یا سوال ساختن.

تو ارزیابی‌هایی که تیم سازنده انجام دادن، مشخص شد که تاثیر ابزار RAG توی حوزه‌های مختلف خیلی فرق می‌کنه. مثلاً تو بخش فرهنگ (یعنی موضوعات مربوط به ادبیات، هنر، آداب و رسوم) مدل RAG حسابی بهتر جواب داده، اما تو ریاضیات حتی بعضی وقتا کیفیتش پایین‌تر اومده! پس معلوم می‌شه که ارزیابی باید حتماً بر اساس حوزه باشه و همه جا یه نسخه رو برای همه مدل‌ها نپیچیم.

راستی اگه دوست داری بیشتر با این پلتفرم آشنا شی یا کدها و دیتاست‌هاش رو ببینی، می‌تونی بری سراغ ویدئو معرفی OmniBench-RAG یا کدهاش رو مستقیم از گیت‌هاب دانلود کنی.

در کل، اومنی‌بنچ RAG یه ابزار خیلی باحاله برای کسایی که می‌خوان بفهمن مدل‌های هوش مصنوعی‌شون واقعاً چقدر خوب و بهینه کار می‌کنن و مخصوصاً چه حوزه‌هایی به دردشون می‌خوره.

منبع: +