اگه اهل تکنولوژی یا دنیای پزشکی باشی، حتماً تا الان اسم مدلهای هوشمند بزرگ (MLLMها) به گوشت خورده، مخصوصاً اونایی که تو پزشکی دارن کلی سروصدا میکنن. مثلاً Med-MLLMها مدلهایی هستن که میتونن به سوالای تصویری پزشکی جواب بدن. مثلاً یه عکس رادیولوژی یا امآرآی نشونشون میدی، بعد سوال میپرسی و اینا جواب میدن!
حالا مشکل چیه؟ خیلی از این مدلا فقط وقتی دیتای خیلی زیاد و برچسبخورده (یعنی قبلاً کلی از این عکسا و جواب درست بهشون داده شده) داشته باشن خوب جواب میدن. ولی خب همه جا همچین دیتایی نیست یا جمع کردنش کلی هزینه و دردسره. مخصوصاً تو محیطهایی که امکانات کمتره! برای همین معمولا این مدلها وقتی منبع و اطلاعات کم باشه خوب جواب نمیدن. دلیلش؟ دو تا گره بزرگ:
- گره اول (میگن intrinsic reasoning bottleneck) یعنی مدل فقط سطحی جواب میده، جزییات مهم عکس رو نمیبینه یا نادیده میگیره.
- گره دوم (میگن extrinsic reasoning bottleneck) اینه که مدل نمیتونه از دانش تخصصی پزشکی بیرون خودش استفاده کنه. یعنی مثلا اطلاعات کتابای تخصصی یا پایگاه دادهها رو تو دلیل آوردن استفاده نمیکنه.
اینجاست که یه ایده باحال به اسم “AMANDA” وارد میشه! AMANDA همون Agentic Medical Knowledge Augmentation for Data-Efficient Medical Visual Question Answering هست. اسمش طولانیه ولی خلاصهاش اینه: یه فریمورک باحال و بدون نیاز به آموزش خاص (training-free framework) که کمک میکنه مدلهای هوشمند پزشکی تو جواب دادن به سوالات تصویری با کمترین داده هم عالی باشن!
حالا آماندا چیکار میکنه؟ دو تا کار اصلی:
- تقویت دانش درونی مدل (intrinsic augmentation): یعنی سوال رو به بخشهای کوچیکتر و سادهتر تقسیم میکنه تا مدل بتونه مرحلهبهمرحله و دقیقتر جواب بده و مشکل دیدن جزییات حل بشه. یه جورایی مثل اینکه سوال سخت رو خوردش میکنه تا آسونتر حل شه!
- تقویت دانش بیرونی مدل (extrinsic augmentation): مدل رو وصل میکنه به پایگاه دادههای پزشکی و biomedical knowledge graph. این یعنی مدل وسط جواب دادن میتونه بره اطلاعات تخصصی رو بخونه یا استخراج کنه تا دقیقتر به سوالت جواب بده.
آماندا مدل نیست، یه فریمورکه که میتونه با مدلهای دیگه کار کنه و باعث میشه تو شرایطی که دیتای کمی داری هم جوابها خیلی بهتر بشه. تازه لازم نیست کلی آموزش جدید بره یا زحمت بکشی، همینجوری قابل استفادهس!
جالب اینه که بچههای REAL-Lab-NU که این روش رو ساختن، کلی آزمایش کردن و روی هشت تا دیتاست معروف تو حوزه پاسخ به سوال تصویری پزشکی (Med-VQA benchmark)، امتحانش کردن و نتیجهها شگفتانگیز بوده. چه تو حالت «zero-shot» (یعنی وقتی مدل اصلاً با دادهی مشابه تمرین نکرده) و چه حالت «few-shot» (با داده محدود)، آماندا باعث شده مدلها خیلی بهتر جواب بدن.
کدهای پروژه AMANDA هم توی گیتهاب قرار گرفته و هر کسی میتونه بره سر بزنه: https://github.com/REAL-Lab-NU/AMANDA
اگه دنبال این هستی که مدل هوشمند پزشکیت رو با کمترین داده، قویتر و دقیقترش کنی، پیشنهاد میکنم حتماً یه نگاه به AMANDA بندازی. همین!
منبع: +