تقسیم‌بندی گره‌های تیروئید تو عکس سونوگرافی با مدل‌های ترنسفورمر: کار آسونی نیست رفیق!

خب بذار برات ساده و خودمونی بگم. تو بحث دکترها و متخصصا، یه داستان تکراری هست به اسم گره تیروئید. واسه اینکه بدونن این گره‌ها سرطانی هستن یا نه، معمولاً از سونوگرافی استفاده می‌کنن؛ یعنی همون عکسی که با دستگاه روی گلوی طرف می‌کشن و داخلش رو می‌بینن.

حالا پیدا کردن گره تو این عکسا خیلی راحت نیست. چرا؟ چون چند تا مشکل سفت و سخت دارن: یکیش اینکه کسی دقیقاً نمی‌دونه منطقه تیروئید کجای تصویر هست. دیگه اینکه کنتراست یا همون تفاوت رنگ و روشنی بین اجزای تصویر پایینه. تازه یه چیز اضافه هم هست به اسم نویز اسپکل (Speckle Noise)، یعنی یه جور بهم‌ریختگی و دونه‌دونه شدن تصویرا که مرز گره‌ها رو گم و گور می‌کنه!

تا حالا مدلای کامپیوتری زیادی برای این تقسیم‌بندی امتحان کردن، مثلاً مدل CNN که مخفف Convolutional Neural Network هست و قبلاً کلی تو کار تصویر جواب داده. ولی این مدل‌ها اکثراً فقط می‌تونن منطقه‌های کوچیک رو یه جا بررسی کنن و خیلی هوش و حواس به کل صفحه ندارن.

اینجا جاییه که مدل ترنسفورمر وسط میاد. ترنسفورمر (Transformer) یه نوع معماری پیشرفته تو یادگیری ماشینیه که کل تصویر رو از همون اول می‌بینه و شبیه اون سیم‌کشیای چندارتصالی، اطلاعات رو به‌هم وصل می‌کنه. یه جور خلاصه بگم: برخلاف مدلای CNN، ترنسفورمرها می‌تونن ارتباط‌های دور و نزدیک رو باهم بفهمن و سرنخ‌های بیشتری گیرشون میاد. اینجا واسه گره‌بندی تیروئید این ویژگی خیلی کمک می‌کنه.

حالا بچه‌های مقاله اومدن روی این مدل ترنسفورمر یه تکنیک باحال پیاده کردن به اسم Masked Autoencoder یا به طور خلاصه MAE. یعنی می‌آن یه قسمت‌هایی از تصویر رو می‌پوشونن، بعد آموزش می‌دن مدل اونو بازسازی کنه. اینجوری، مدل یاد می‌گیره حتی اگه تیکه‌هایی گم باشه، بقیه رو از روی بخشای سالم حدس بزنه و خودش رو قوی کنه.

توی آزمایششون، اول مدل MAE رو فقط روی بازسازی تصویر آموزش دادن (که بهش می‌گن pre-training یا پیش‌آموزش)، بعد انداختنش روی داده‌های سونوگرافی تیروئید تا جداسازی گره‌ها رو تمرین کنه. حتی واسه بهتر شدن مدل، یه قابلیت دیگه اضافه کردن به اسم Cross-Attention. اینم یعنی اطلاعات بین بخش رمزگذار (encoder) و رمزگشا (decoder) بهتر رد و بدل بشه و مدل دید جامعتری داشته باشه.

چنتا دیتاست یا مجموعه داده معروف هم استفاده کردن: AIMI، TN3K، و DDTI. حالا بذار بریم سر نتایج که معمولاً همه منتظرشن:

نتیجه گیری و دیتاها
مدل با وجود همه این تکنیک‌ها جمعاً تونست به ضرایب Dice Similarity Coefficient یا همون DSC بین ۰٫۶۳ تا ۰٫۶۵ برسه (تو سه دیتاست اصلی؛ AIMI: ۰٫۶۳، TN3K: ۰٫۶۴، DDTI: ۰٫۶۵). عدد DSC یه جور شاخصه برای مقایسه تقسیم‌بندی مدل با جواب درست. هرچی به ۱ نزدیکتر باشه یعنی عالی، نزدیک ۰ یعنی خوب پیش نرفته.

البته، یه نکته رو خودشون هم گفتن: جریان MAE باعث شد مدل زودتر یاد بگیره و زمان آموزش کمتر شد، اما دقت نهایی مدل، چندان پَریده نکرد چون تعداد مثال‌ها کم بوده و شکل گره‌ها تو تصاویر خیلی باهم فرق می‌کرد. خلاصه، با هر ترفندی که زدن، تعداد داده و تنوعش هنوز پاشنه آشیل قضیه‌س.

یه چیز جالب دیگم اینه که افزودن اون بخش Cross-Attention هم خیلی معجزه نکرد و دیدن بیشتر نیاز به داده دارن تا اینکه هی مدل رو پیچیده‌تر کنن.

در کل، پایان‌بندی مقاله‌شون اینه: پیش‌آموزش با MAE به مدل کمک می‌کنه کلی ویژگی کاربردی یاد بگیره و سرعت آموزش بالا می‌ره، ولی برا دقت بالا نیاز به دیتاست بزرگتر و متنوع‌تر هست. از این به بعد برنامه دارن که داده رو گسترش بدن، روی همون Cross-Attention هم پیش‌آموزش انجام بدن، و مدل‌های ترکیبی تازه رو برای جداسازی گره‌های تیروئید امتحان کنن.

اگر از این موضوعات خوشت اومد، بدون مدل‌های ترنسفورمر کلی پتانسیل دارن تو تصویربرداری پزشکی، اما معجزه اصلی وقتی اتفاق می‌افته که داده و مثال زیاد و متنوع باشه!

منبع: +