خب بذارین یه چیزی رو اول بگم: مدلهای زبانی بزرگ یا همون LLMها (مثلاً ChatGPT) خیلی باحالن، هرچی بپرسی سریع جواب میدن. ولی یه مشکلی دارن، اونم اینه که تو کارای تخصصی زیاد قابل اعتماد نیستن و بعضی وقتا همینطوری یه چیزی از خودشون درمیارن (به این میگن hallucination، یعنی مدل یه چیز اشتباهی که واقعیت نداره میگه). خب برای همین اومدن یه راهکار درست کردن به اسم RAG. این RAG مخفف Retrieval-Augmented Generation هست، یعنی مدل میره از منابع خارجی مثل مقالات یا دیتابیسها کمک میگیره و بر اساس اون جواب میده، تا کمتر اشتباه کنه.
حالا اینم بگم که RAG هم قدرتمنده و هم ضعف داره. مهمترین مشکلش اینه که مخصوصاً وقتی بحث خیلی تخصصی میشه، باز هم دقتش کم میشه یا نمیتونه خوب محتوای تخصصی رو بفهمه و دستهبندی کنه.
اینجا بود که تیمی از محققین یه ایده جالب دادن به اسم DSRAG! این DSRAG مخفف Domain-Specific Retrieval-Augmented Generation هست و یه فریمورک (یعنی چارچوب) جدیده که با محور گراف دانش مولتیمدال کار میکنه. حالا مولتیمدال یعنی اطلاعاتش فقط متن نیست؛ عکس، جدول و هر دیتایی که توی سندها هست هم وارد کار میشه.
اینجوری دیگه اطلاعات فقط یه سری نوشته ساده نیست؛ بلکه DSRAG میاد ساختار این اطلاعات رو هم تو خودش میسازه و میگه مثلاً فلان عکس مربوط به کدوم بخش از سند تخصصیه یا این جدول چه مفهومی داره. این ساختار بهش میگن knowledge graph (گراف دانش)، که توش هرچیزی رو به هم ربط میدن. مثلاً تو حوزه پزشکی، بیماریها رو به علائمشون، داروها و تصاویر آزمایشگاهیشون وصل میکنن.
کار خفن DSRAG اینه که اصلاً به جای کلی اطلاعات همگانی، میاد تخصصی برای هر حوزه از خود اسناد همون حوزه استفاده میکنه. یعنی واسه حوزههایی مثل دارو سازی یا قانون، فقط بهش متن عمومی نشون نمیدن، بلکه از گزارشها، مقالات و دادههای مربوط به همون شاخه استفاده میکنه.
حالا این وسط DSRAG یه کار جالب دیگه هم انجام میده: با مکانیزمی به اسم semantic pruning (یعنی هرس کردن مفهومی، یعنی اطلاعاتی که واقعا بدرد جواب دادن نمیخورن رو حذف میکنه) و retrieval ساختاری، یه زیرمجموعه دقیق از گراف دانش رو انتخاب میکنه. این باعث میشه مدل فقط جوابهایی پیشنهاد بده که خیلی خیلی به سوال ربط داره و از شلوغ پلوغی فرار کنه!
در آخر هم محققها این روش رو با استفاده از یه سیستم امتیازدهی چندبعدی که اسمش Langfuse هست (یه مدل ارزیابی تخصصی برای پرسش و پاسخ)، سنجیدن و نتایجش نشون داد که DSRAG واقعاً تو جواب دادن به سوالات تخصصی و علمی فوقالعادهست. پس اگه دنبال این بودین که چطوری LLMها رو تو پروژههای تخصصی هوشمندتر و دقیقتر کنید، این راهش میتونه باشه: گراف دانش مولتیمدال و انتخاب ساختاری اطلاعات تخصصی!
منبع: +