آماندا: یه روش خفن برای بهتر جواب دادن به سوالای تصویری پزشکی با کمترین داده!

اگه اهل تکنولوژی یا دنیای پزشکی باشی، حتماً تا الان اسم مدل‌های هوشمند بزرگ (MLLMها) به گوشت خورده، مخصوصاً اونایی که تو پزشکی دارن کلی سروصدا می‌کنن. مثلاً Med-MLLMها مدل‌هایی هستن که می‌تونن به سوالای تصویری پزشکی جواب بدن. مثلاً یه عکس رادیولوژی یا ام‌آرآی نشونشون میدی، بعد سوال می‌پرسی و اینا جواب میدن!

حالا مشکل چیه؟ خیلی از این مدلا فقط وقتی دیتای خیلی زیاد و برچسب‌خورده (یعنی قبلاً کلی از این عکسا و جواب درست بهشون داده شده) داشته باشن خوب جواب میدن. ولی خب همه جا همچین دیتایی نیست یا جمع کردنش کلی هزینه و دردسره. مخصوصاً تو محیط‌هایی که امکانات کمتره! برای همین معمولا این مدل‌ها وقتی منبع و اطلاعات کم باشه خوب جواب نمی‌دن. دلیلش؟ دو تا گره بزرگ:

گره اول (می‌گن intrinsic reasoning bottleneck) یعنی مدل فقط سطحی جواب می‌ده، جزییات مهم عکس رو نمی‌بینه یا نادیده می‌گیره.
گره دوم (می‌گن extrinsic reasoning bottleneck) اینه که مدل نمی‌تونه از دانش تخصصی پزشکی بیرون خودش استفاده کنه. یعنی مثلا اطلاعات کتابای تخصصی یا پایگاه داده‌ها رو تو دلیل آوردن استفاده نمی‌کنه.

اینجاست که یه ایده باحال به اسم “AMANDA” وارد میشه! AMANDA همون Agentic Medical Knowledge Augmentation for Data-Efficient Medical Visual Question Answering هست. اسمش طولانیه ولی خلاصه‌اش اینه: یه فریم‌ورک باحال و بدون نیاز به آموزش خاص (training-free framework) که کمک می‌کنه مدل‌های هوشمند پزشکی تو جواب دادن به سوالات تصویری با کمترین داده هم عالی باشن!

حالا آماندا چیکار میکنه؟ دو تا کار اصلی:

تقویت دانش درونی مدل (intrinsic augmentation): یعنی سوال رو به بخش‌های کوچیکتر و ساده‌تر تقسیم می‌کنه تا مدل بتونه مرحله‌به‌مرحله و دقیق‌تر جواب بده و مشکل دیدن جزییات حل بشه. یه جورایی مثل اینکه سوال سخت رو خوردش می‌کنه تا آسون‌تر حل شه!
تقویت دانش بیرونی مدل (extrinsic augmentation): مدل رو وصل می‌کنه به پایگاه داده‌های پزشکی و biomedical knowledge graph. این یعنی مدل وسط جواب دادن می‌تونه بره اطلاعات تخصصی رو بخونه یا استخراج کنه تا دقیق‌تر به سوالت جواب بده.

آماندا مدل نیست، یه فریم‌ورکه که می‌تونه با مدل‌های دیگه کار کنه و باعث میشه تو شرایطی که دیتای کمی داری هم جواب‌ها خیلی بهتر بشه. تازه لازم نیست کلی آموزش جدید بره یا زحمت بکشی، همینجوری قابل استفاده‌س!

جالب اینه که بچه‌های REAL-Lab-NU که این روش رو ساختن، کلی آزمایش کردن و روی هشت تا دیتاست معروف تو حوزه پاسخ به سوال تصویری پزشکی (Med-VQA benchmark)، امتحانش کردن و نتیجه‌ها شگفت‌انگیز بوده. چه تو حالت «zero-shot» (یعنی وقتی مدل اصلاً با داده‌ی مشابه تمرین نکرده) و چه حالت «few-shot» (با داده محدود)، آماندا باعث شده مدل‌ها خیلی بهتر جواب بدن.

کدهای پروژه AMANDA هم توی گیت‌هاب قرار گرفته و هر کسی می‌تونه بره سر بزنه: https://github.com/REAL-Lab-NU/AMANDA

اگه دنبال این هستی که مدل هوشمند پزشکی‌ت رو با کمترین داده، قوی‌تر و دقیق‌ترش کنی، پیشنهاد می‌کنم حتماً یه نگاه به AMANDA بندازی. همین!

منبع: +