خب رفقا، تو این مقاله میخوام یه موضوع خفن درباره هوش مصنوعیهای پیشرفته امروزی (که بهشون LLM میگن، یعنی Large Language Model یا همون مدلهای زبانی بزرگ) رو براتون با زبون ساده تعریف کنم. بچهها این مدلها همونایی هستن که خودشون میتونن متن تولید کنن، مثلاً ChatGPT و کلی مدل دیگه.
یه روش خیلی معروف وجود داره به اسم RAG یا همون Retrieval-Augmented Generation. خلاصهش اینه که مدل هوش مصنوعی علاوه بر اطلاعاتی که تو دل خودش داره، میره یه سرچی تو اینترنت یا دیتابیس میکنه و اطلاعات کمکی رو هم برمیداره و به متن خودش اضافه میکنه. اینجوری قرار بود مدل دقیقتر و درستتر جواب بده. اما ایراد بزرگش اینه که خیلی وقتا این هوش مصنوعیها اصلاً درست اون اطلاعات رو قاطی نمیکنن! یعنی چی؟ مثلاً مدل ممکنه یه سری مقاله جدید خونده باشه که توش نوشته “فلان شرکت ورشکست شد” ولی تو جوابش هنوز بگه “کلی موفقیت داشته”! یعنی اطلاعات واقعی رو تو جوابش درست منعکس نمیکنه.
حالا مشکل اصلی اینجاست که چقدر این مدلها واقعاً اون چیزایی که پیدا میکنن رو تو جواباشون منعکس میکنن؟ اینجاست که یه متریک جدید رو تو این مقاله معرفی کردن که اسمش هست Entity-Context Divergence یا همون ECD. یه توضیح: ECD یعنی شاخصی که اندازه میگیره مدل چقدر تونسته دقیقاً اطلاعاتی که پیدا کرده (حالا چه درباره یک شخص، شرکت، واقعه یا هر چیزی) رو درست بیاره تو خروجی خودش. اگه زیاد باشه، مدل اشتباه قاطیش کرده یا اصل اطلاعات رو گم کرده.
آدمای باحال این مقاله اومدن الالامهای معروف و جدید رو آزمایش کردن تا ببینن اون چیزی که بهش میگن RAG-ability، چقدره. RAG-ability یعنی اینکه یه مدل چقدر بلده تو حالتهایی که اطلاعات کمکی بهش داده میشه، اونارو درست و دقیق تو پاسخهاش بیاره و خرابکاری نکنه. نتایج جالب بود: فهمیدن که اکثر مدلها واقعاً تو این قضیه خیلی داغونن و هر چی ازشون بخوای کمی گیج میشن یا اصل مطلب رو نمیگیرن و جواب درست نمیدن!
حالا چی کار کردن که این مشکل حل شه؟ اومدن یه فریمورک جدید ساختن به اسم Radiant (که خلاصه Retrieval AugmenteD entIty-context AligNmenT هست). ایده Radiant اینه که بیاد و ترکیب RAG با یک رویکرد بهینهسازی ترجیح مستقیم (Direct Preference Optimization یا به اختصار DPO) رو پیاده کنه. یه توضیح کوچیک: DPO یعنی مدلی تربیت بشه که بتونه بر اساس دادههایی که فیدبک میگیریم، یاد بگیره رفتار درست داشته باشه. اینجا Radiant کمک میکنه مدل یاد بگیره هر وقت اطلاعات جدید بهش دادن (مثل وقتی تو یه سایت نویزی یا شلوغ سرچ میکنه)، همون رو دقیق و درست بچسبونه به جوابش. اینجوری هم دیگه کمتر توهم میزنه (Halucination یعنی هنگی مدل یا آوردن اطلاعات اشتباه و مندرآوردی)، هم ضد و نقیض نمیگه، هم بهتر میتونه دروغها رو فیلتر کنه.
نتیجه؟ Radiant باعث شده مدلهای هوش مصنوعی، مخصوصاً موقعی که قراره براساس سرچ خارجی یا اطلاعات جدید تولید محتوا کنن، خیلی دقیقتر و واقعیتر بشن. دیگه مثلاً نمیان یه جای شلخته تو اینترنت رو عیناً کپی کنن و خرابکاری کنن یا اطلاعات اشتباه تحویل بدن!
در کل، این مقاله نشون میده که با وجود همه پیشرفتها، هنوز راه زیادی مونده تا این مدلهای هوش مصنوعی بتونن واقعاً بر اساس اطلاعات بهروز و واقعی، جواب دقیق بدن. اما با راهکارهای خلاقانهای مثل Radiant، داریم امیدوار میشیم یه روزی جوابها واقعاً قابل اعتماد و شستهرفته بشن!
منبع: +