هوش مصنوعی خفن برای تشخیص و برش اندام‌های شکمی تو عکس‌های سونوگرافی: مدل «مامبا-ترنسفورمر» چیه و چرا بهتره؟

خب بچه‌ها، بیاین یه موضوع خفن رو با هم مرور کنیم: تشخیص اندام‌ها تو عکس‌های سونوگرافی شکم با کمک هوش مصنوعی! قطعاً تابحال سونوگرافی شکم رو دیدین یا رفتین—همون عکسی که دکتر با دستگاه رو شکمتون می‌کشه و عکس داخلی شکمتون رو می‌بینه. تو این عکس‌ها اندام‌های مختلفی مثل کبد، پانکراس، و کلیه‌ها دیده میشن و گاهاً هم دکتر باید محل دقیق توده یا کیست رو پیدا کنه تا درست تشخیص بده. اما اصل ماجرا اینه که تشخیص دقیق همه‌‌ این ساختمان‌ها تو عکس‌ها، کلی جزئیات و کار داره و حتی واسه متخصص‌ها هم همیشه آسون نیست.

حالا بیاین درباره هوش مصنوعی تو این حوزه صحبت کنیم. سیستم‌ها و مدل‌های جدید هوش مصنوعی، مخصوصاً اونایی که مبتنی بر شبکه عصبی عمیق (Deep Neural Networks یا به اختصار DNN) و مدل‌های ترنسفورمر هستن، خیلی تو این زمینه پیشرفته شدن.

ترنسفورمر (Transformer) یه مدل معروف تو هوش مصنوعیه که کارش دنبال‌کردن ارتباط و وابستگی بین قسمت‌های مختلف تصویر یا متن‌هاست؛ اما خودش بدی‌هایی هم داره — مثلاً مصرف زیاد منابع کامپیوتری. این یعنی بعضی وقتا، استفاده ازش واسه کارهای درمانی یا بالینی خیلی کاربردی نیست چون نیاز به سرعت و کارایی بالا داریم.

الان تیمی از محققان اومدن یه مدل ترکیبی ساختن به اسم “MaskHybrid” که ترکیبیه از ترنسفورمر و یه ساختار دیگه به اسم مامبا (Mamba). مامبا هم یه نوع معماری جدیده تو دنیای هوش مصنوعی که خیلی قوی و سریع می‌تونه روابط و زمینه‌های فضایی تصویر رو بفهمه. خلاصه یعنی اومدن ترکیب این دو تا رو تست کردن تا ببینن میشه هم دقت داشته باشن و هم سرعت خوب؟

برای آموزش این مدل، محقق‌ها یه دیتاست اختصاصی داشتن شامل ۳۴،۷۱۱ عکس سونوگرافی شکم مربوط به ۲۰۶۳ بیمار مختلف! تو این عکس‌ها انواع اندام‌ها رو داشتن: مثل ورید کبدی، ورید اجوف تحتانی (یه رگ بزرگ خون تو شکم)، ورید پورتال، کیسه صفرا، کلیه، پانکراس و طحال. تازه توده‌ها و کیست‌های کبدی هم بودن!

تو مدل MaskHybrid که گفتیم، یه بخش به اسم backbone (یعنی هسته اصلی مدل)، encoder (رمزگذار یا همون بخشی که اطلاعات رو می‌گیره و می‌فهمه)، و decoder (رمزگشا—که خروجی رو برمی‌گردونه) وجود داره. این معنیش اینه که مدل می‌تونه تو عکس دنبال روابط، فاصله‌ها و جزئیات بگرده و به دقت اندام‌ها رو پیدا کنه و حتی مرزبندی کنه (یعنی segmentation—تکه تکه کردن تصویر به بخش‌های جداگانه مثل برش دادن کیک که هر تکه‌ش یکی از اندامه).

نتایجشون واقعاً عالی دراومده: میانگین دقت segmentation یا همون mAP (mean average precision؛ یه شاخص برای سنجش دقت) شده ۷۴.۱۳٪! با این مدل تقریبا همه اندام‌ها و حتی توده‌ها رو دقیق‌تر و بهتر از مدل‌های قبلی تونستن پیدا کنن و مرزبندی کنن — حتی اونایی که معمولاً برای مدل‌ها سخته (مثلاً جاهایی که تصویر محو یا اندام‌ها کنار هم چسبیده‌ان). جالب‌تر اینکه این مدل فقط به‌طور میانگین ۰.۱۲ ثانیه طول می‌کشه تا نتیجه رو بده! یعنی تقریباً ۲.۵ برابر سریع‌تر از مدل‌های بزرگ دیگه که هم‌اندازه‌اش هستن.

در کل، نوآوری اصلی تو این ترکیب مامبا-ترنسفورمر اینه که هم دقت segmentation تو سونوگرافی رو بالا برده (یعنی دکتر دقیق‌تر می‌تونه بگه این کیسته، این رگه، این کلیه‌اس، …) و هم سرعت جواب دادن مدل رو اونقدر زیاد کرده که عملاً میشه همون لحظه رو عکس سونوگرافی جواب رو دید—که این برای دکترها تو تشخیص زنده (real-time) خیلی ارزش داره.

خلاصه، با این مدل‌های پیشرفته، آینده سونوگرافی و تصویر برداری پزشکی خیلی پیشرفته و سریع‌تر میشه و دکترها می‌تونن ازش تو تفسیر بهتر و سریع‌تر تصاویر استفاده کنن. البته همیشه هم قراره ناظران مراقب باشن و دقت بدن هوش مصنوعی جایگزین انسان نشه، ولی واقعاً ابزار کمکی فوق‌العاده‌ای برای پزشک‌ها میشه!

منبع: +