DSRAG چیه؟ یه مدل جدید برای جواب دادن به سوالای تخصصی با کمک گراف‌های دانشی مولتی‌مدال!

Fall Back

خب بذارین یه چیزی رو اول بگم: مدل‌های زبانی بزرگ یا همون LLMها (مثلاً ChatGPT) خیلی باحالن، هرچی بپرسی سریع جواب می‌دن. ولی یه مشکلی دارن، اونم اینه که تو کارای تخصصی زیاد قابل اعتماد نیستن و بعضی وقتا همینطوری یه چیزی از خودشون درمیارن (به این میگن hallucination، یعنی مدل یه چیز اشتباهی که واقعیت نداره میگه). خب برای همین اومدن یه راهکار درست کردن به اسم RAG. این RAG مخفف Retrieval-Augmented Generation هست، یعنی مدل میره از منابع خارجی مثل مقالات یا دیتابیس‌ها کمک می‌گیره و بر اساس اون جواب میده، تا کمتر اشتباه کنه.

حالا اینم بگم که RAG هم قدرتمنده و هم ضعف داره. مهم‌ترین مشکلش اینه که مخصوصاً وقتی بحث خیلی تخصصی میشه، باز هم دقتش کم میشه یا نمی‌تونه خوب محتوای تخصصی رو بفهمه و دسته‌بندی کنه.

اینجا بود که تیمی از محققین یه ایده جالب دادن به اسم DSRAG! این DSRAG مخفف Domain-Specific Retrieval-Augmented Generation هست و یه فریم‌ورک (یعنی چارچوب) جدیده که با محور گراف دانش مولتی‌مدال کار می‌کنه. حالا مولتی‌مدال یعنی اطلاعاتش فقط متن نیست؛ عکس، جدول و هر دیتایی که توی سندها هست هم وارد کار میشه.

اینجوری دیگه اطلاعات فقط یه سری نوشته ساده نیست؛ بلکه DSRAG میاد ساختار این اطلاعات رو هم تو خودش می‌سازه و می‌گه مثلاً فلان عکس مربوط به کدوم بخش از سند تخصصیه یا این جدول چه مفهومی داره. این ساختار بهش میگن knowledge graph (گراف دانش)، که توش هرچیزی رو به هم ربط می‌دن. مثلاً تو حوزه پزشکی، بیماری‌ها رو به علائمشون، داروها و تصاویر آزمایشگاهیشون وصل می‌کنن.

کار خفن DSRAG اینه که اصلاً به جای کلی اطلاعات همگانی، میاد تخصصی برای هر حوزه از خود اسناد همون حوزه استفاده می‌کنه. یعنی واسه حوزه‌هایی مثل دارو سازی یا قانون، فقط بهش متن عمومی نشون نمی‌دن، بلکه از گزارش‌ها، مقالات و داده‌های مربوط به همون شاخه استفاده می‌کنه.

حالا این وسط DSRAG یه کار جالب دیگه هم انجام میده: با مکانیزمی به اسم semantic pruning (یعنی هرس کردن مفهومی، یعنی اطلاعاتی که واقعا بدرد جواب دادن نمی‌خورن رو حذف می‌کنه) و retrieval ساختاری، یه زیرمجموعه دقیق از گراف دانش رو انتخاب می‌کنه. این باعث میشه مدل فقط جواب‌هایی پیشنهاد بده که خیلی خیلی به سوال ربط داره و از شلوغ پلوغی فرار کنه!

در آخر هم محقق‌ها این روش رو با استفاده از یه سیستم امتیازدهی چندبعدی که اسمش Langfuse هست (یه مدل ارزیابی تخصصی برای پرسش و پاسخ)، سنجیدن و نتایجش نشون داد که DSRAG واقعاً تو جواب دادن به سوالات تخصصی و علمی فوق‌العاده‌ست. پس اگه دنبال این بودین که چطوری LLMها رو تو پروژه‌های تخصصی هوشمندتر و دقیق‌تر کنید، این راهش می‌تونه باشه: گراف دانش مولتی‌مدال و انتخاب ساختاری اطلاعات تخصصی!

منبع: +