داستان رتریوال آگوستد جنریشن (RAG) و مدل‌های زبانی بزرگ توی سلامت: همه چی رو راحت و خودمونی بدون!

بذارین یه موضوع جالب رو خودمونی براتون توضیح بدم؛ داستان مدل‌های زبانی بزرگ یا همون Large Language Models (LLMs)! این‌ها همون هوش مصنوعی‌هایی هستن که الان همه جا حرفشونه و مثلاً ChatGPT یکی از معروف‌تریناشونه. این مدل‌ها می‌تونن تو کارهای حساس مثل پزشکی و سلامت خیلی به درد بخورن. ولی خب، یه سری ایراد دارن که اصلاً قابل چشم‌پوشی نیست!

خب ایرادها چیا هستن؟

اول اینکه این مدل‌ها معمولاً با یه سری اطلاعات قدیمی تربیت شدن و نمی‌تونن به‌روزرسانی بشن، یعنی اگه یه داروی جدید بیاد یا یه یافته جدید پیدا شه، مدل بی‌خبره! دوم اینکه بعضی وقتا اطلاعات اشتباه می‌دن و اصطلاحاً «هالوسینیت» می‌کنن؛ یعنی چیزی رو می‌سازن که اصلاً واقعی نیست! سومین مشکل اینه که هیچی هم نمی‌گن این جواب رو از کجا آوردن یا چطور بهش رسیدن. یعنی شفافیت صفر!

حالا اینجا یه تکنیک خیلی باحال میاد وسط به اسم Retrieval Augmented Generation یا خلاصه‌ش RAG. منظور از RAG اینه که مدل رو به یه سری منبع اطلاعاتی خارجی وصل می‌کنن (مثلاً سایت‌ها یا دیتابیس‌ تخصصی)، و اول یه سرچی بین این منابع می‌زنه تا جواب دقیق‌تری بده و فقط گیر داده‌های قدیمی خودش نباشه. خلاصه مثل این می‌مونه که یه آدم همه‌چیزدان رو با منبع‌های جدید و کتابخونه وصله بزنی!

اما داستان RAG تو حوزه سلامت هنوز کامل جا نیفتاده. یعنی کسی دقیق نمی‌دونه کدوم دیتاست‌ها (مجموعه داده)ها بهترن، چه مدل‌ها و روش‌هایی برای RAG به درد می‌خوره، یا اصلاً چطور باید این کار رو دقیق ارزیابی کنیم؟ تازه، اون چارچوب یا Framework ارزیابی استاندارد هم نیست که همه طبق یه اصولی کار رو بسنجن. این مقاله اومده یه مروری بکنه و ببینه تا الان دانشمندا برای RAG و LLMها تو حوزه سلامت چیکار کردن، چه روش‌هایی خفن‌تر و چه ضعف‌هایی بوده.

یکی از جالب‌ترین چیزایی که تو این بررسی پیدا شده، اینکه حدود ۷۸/۹ درصد مطالعات از دیتاست‌های انگلیسی استفاده کردن و فقط ۲۱/۱ درصد از داده‌هاشون چینی بودن. خلاصه، هنوزم زبان انگلیسی حکومت می‌کنه تو این حوزه!

حالا مدل‌هایی که برای RAG تو سلامت رایج هستن چیان؟ سه گروه اصلی داریم: Naive RAG که خیلی ساده و پایه‌ است، Advanced RAG که یکم شاخ و حرفه‌ای‌تره، و Modular RAG که قسمت به قسمت و ماژولار همه چی رو جمع‌وجور می‌کنه. جالب تر اینکه مدل‌های معروف و اصطلاحاً Proprietary مثل GPT-3.5 و GPT-4 (اون‌هایی که شرکت OpenAI ساخته و آزاد نیستن!) بیشتر از بقیه استفاده شدن. انگار همه طرفدار راحتی و قدرت این مدل‌ها هستن!

ولی یه مشکل بزرگ هست و اون هم نبود یه روش استاندارد برای ارزیابی این سیستم‌هاست؛ یعنی هرکسی یه جوری خودش می‌سنجتشون! این باعث می‌شه مقایسه‌شون با هم تقریباً نشدنی باشه.

یه نکته خیلی مهم دیگه هم هست: اکثر این مطالعات اصلاً حواسشون به بحث اخلاقی نیست! مثلاً مسائل حفظ حریم خصوصی یا اشتباهات مرگبار پزشکی که می‌تونه پیش بیاد. یعنی موضوعات حساس مثل این رو یا بررسی نکردن یا برنامه‌ای واسش ندارن. Ethical considerations یعنی همین دغدغه‌های اخلاقی.

پس اگه بخوام خلاصه کنم: RAG می‌تونه مدل‌ها رو خیلی باهوش‌تر و به‌روزتر کنه، اما هنوز جای پیشرفت داره. مخصوصاً تو بحث اخلاق و اینکه چطور عملکردشو بشه دقیق‌تر ارزیابی کرد. به قول نویسنده‌ها، هنوز کلی پژوهش و کار باقی مونده تا این فناوری رو بشه واقعاً مسئولانه و با خیال راحت تو بیمارستان‌ها و کلینیک‌ها استفاده کرد.

در کل، اگه از دنیای هوش مصنوعی تو پزشکی خوشت میاد و دنبال راه‌هایی هستی که مشکلات «اطلاعات قدیمی»، «هالوسینیشن» و شفافیت مدل‌ها حل شه، RAG گزینه خیلی امیدبخشی به نظر میاد! فقط باید حسابی روش کار کنیم تا مطمئن بشیم مشکلات جدیدتری درست نمی‌کنه.
منبع: +