رادیانت: داستان خرابکاری هوش مصنوعی با اطلاعات و چجوری میشه درستش کرد!

Fall Back

خب رفقا، تو این مقاله می‌خوام یه موضوع خفن درباره هوش مصنوعی‌های پیشرفته امروزی (که بهشون LLM می‌گن، یعنی Large Language Model یا همون مدل‌های زبانی بزرگ) رو براتون با زبون ساده تعریف کنم. بچه‌ها این مدل‌ها همونایی هستن که خودشون می‌تونن متن تولید کنن، مثلاً ChatGPT و کلی مدل دیگه.

یه روش خیلی معروف وجود داره به اسم RAG یا همون Retrieval-Augmented Generation. خلاصه‌ش اینه که مدل هوش مصنوعی علاوه بر اطلاعاتی که تو دل خودش داره، می‌ره یه سرچی تو اینترنت یا دیتابیس می‌کنه و اطلاعات کمکی رو هم برمی‌داره و به متن خودش اضافه می‌کنه. اینجوری قرار بود مدل دقیق‌تر و درست‌تر جواب بده. اما ایراد بزرگش اینه که خیلی وقتا این هوش مصنوعی‌ها اصلاً درست اون اطلاعات رو قاطی نمی‌کنن! یعنی چی؟ مثلاً مدل ممکنه یه سری مقاله جدید خونده باشه که توش نوشته “فلان شرکت ورشکست شد” ولی تو جوابش هنوز بگه “کلی موفقیت داشته”! یعنی اطلاعات واقعی رو تو جوابش درست منعکس نمی‌کنه.

حالا مشکل اصلی اینجاست که چقدر این مدل‌ها واقعاً اون چیزایی که پیدا می‌کنن رو تو جواباشون منعکس می‌کنن؟ اینجاست که یه متریک جدید رو تو این مقاله معرفی کردن که اسمش هست Entity-Context Divergence یا همون ECD. یه توضیح: ECD یعنی شاخصی که اندازه می‌گیره مدل چقدر تونسته دقیقاً اطلاعاتی که پیدا کرده (حالا چه درباره یک شخص، شرکت، واقعه یا هر چیزی) رو درست بیاره تو خروجی خودش. اگه زیاد باشه، مدل اشتباه قاطی‌ش کرده یا اصل اطلاعات رو گم کرده.

آدمای باحال این مقاله اومدن ال‌ال‌ام‌های معروف و جدید رو آزمایش کردن تا ببینن اون چیزی که بهش می‌گن RAG-ability، چقدره. RAG-ability یعنی اینکه یه مدل چقدر بلده تو حالت‌هایی که اطلاعات کمکی بهش داده می‌شه، اونارو درست و دقیق تو پاسخ‌هاش بیاره و خرابکاری نکنه. نتایج جالب بود: فهمیدن که اکثر مدل‌ها واقعاً تو این قضیه خیلی داغونن و هر چی ازشون بخوای کمی گیج می‌شن یا اصل مطلب رو نمی‌گیرن و جواب درست نمی‌دن!

حالا چی کار کردن که این مشکل حل شه؟ اومدن یه فریمورک جدید ساختن به اسم Radiant (که خلاصه Retrieval AugmenteD entIty-context AligNmenT هست). ایده Radiant اینه که بیاد و ترکیب RAG با یک رویکرد بهینه‌سازی ترجیح مستقیم (Direct Preference Optimization یا به اختصار DPO) رو پیاده کنه. یه توضیح کوچیک: DPO یعنی مدلی تربیت بشه که بتونه بر اساس داده‌هایی که فیدبک می‌گیریم، یاد بگیره رفتار درست داشته باشه. اینجا Radiant کمک می‌کنه مدل یاد بگیره هر وقت اطلاعات جدید بهش دادن (مثل وقتی تو یه سایت نویزی یا شلوغ سرچ می‌کنه)، همون رو دقیق و درست بچسبونه به جوابش. اینجوری هم دیگه کمتر توهم می‌زنه (Halucination یعنی هنگی مدل یا آوردن اطلاعات اشتباه و من‌درآوردی)، هم ضد و نقیض نمی‌گه، هم بهتر می‌تونه دروغ‌ها رو فیلتر کنه.

نتیجه؟ Radiant باعث شده مدل‌های هوش مصنوعی، مخصوصاً موقعی که قراره براساس سرچ خارجی یا اطلاعات جدید تولید محتوا کنن، خیلی دقیق‌تر و واقعی‌تر بشن. دیگه مثلاً نمیان یه جای شلخته تو اینترنت رو عیناً کپی کنن و خرابکاری کنن یا اطلاعات اشتباه تحویل بدن!

در کل، این مقاله نشون می‌ده که با وجود همه پیشرفت‌ها، هنوز راه زیادی مونده تا این مدل‌های هوش مصنوعی بتونن واقعاً بر اساس اطلاعات به‌روز و واقعی، جواب دقیق بدن. اما با راهکارهای خلاقانه‌ای مثل Radiant، داریم امیدوار می‌شیم یه روزی جواب‌ها واقعاً قابل اعتماد و شسته‌رفته بشن!
منبع: +