چی کار کنیم Transformerها تو پزشکی بهتر عمل کنن؟ راهکار نویزی ANAA!

حتماً تو این مدت زیاد اسم مدل‌های Transformer رو شنیدی – مثلاً همین ChatGPT که الان داری باهاش حرف می‌زنی هم با این ساختار کار می‌کنه. این مدل‌ها وقتی روی کلی اطلاعات مختلف آموزش داده می‌شن و بعد برای موضوع خاص مثل پزشکی یا تحلیل اطلاعات بیمارستان (یه جورایی سوابق پزشکی بیمارا که بهش می‌گن Electronic Health Records یا همون EHR)، دوباره آموزش می‌گیرن، حسابی باهوش و دقیق می‌شن. ولی یه مشکل هست: داده‌هایی که تو پزشکی برچسب‌دار هستن (یعنی دقیقاً مشخصه این داده‌ها به چه بیماری، دارو یا اتفاقی مربوطه)، واقعاً کمه؛ تازه رویدادهای پزشکی هم خیلی پیچیده و پراکندن، یعنی هر داده‌ای ممکنه هر چند وقت یکبار ثبت بشه یا کلی اتفاق بینش بیفته.

حالا معمولاً این مدل‌ها با یه سازوکار به اسم Self-attention یعنی «توجه به خود» کار می‌کنن، که خلاصه‌ش اینه که مدل یاد می‌گیره کدوم بخش‌های داده برای پیش‌بینی مهم‌ترن. مثلاً تو یه دنباله زمانی از آزمایش‌های یک بیمار، مدل باید تشخیص بده که آزمایش قند مثلاً با داروی خاص ربط داره یا نه. ولی وقتی داده‌ها کم باشه، یا این ارتباط‌ها خیلی ظریف و پراکنده باشن، همین self-attention هم ممکنه کارایی بالایی نداشته باشه و خیلی چیزا رو از دست بده.

اینجا یه راهکار خلاقانه به اسم Adaptive Noise-Augmented Attention یا به اختصار ANAA معرفی شده. بخوام ساده بگم، این روش میاد یه مقدار نویز یا به هم ریختگی «هوشمند» به وزن‌های بخش توجه (attention weights) اضافه می‌کنه و بعدش با یه «هسته گاوسی دو بعدی» (2D Gaussian kernel، یعنی یه جور فیلتر آماری که کمک می‌کنه توجه‌ها پخش‌تر و هموارتر باشن) روی نقشه توجه کار می‌کنه. نتیجه چی میشه؟ اینطوری توجه مدل دیگه فقط رو چند رویداد محدود گیر نمی‌کنه و شانس بیشتری داره که رو رویدادهایی که شاید در حالت عادی به چشم مدل نمی‌اومدن هم حساس بشه و اطلاعات بیشتری از کل دنباله بگیره.

برخلاف روش‌هایی که مجبور بودن کل مدل رو از اول بازطراحی کنن و دوباره آموزش بدن (که واقعاً وقت‌گیر و گرون در میاد)، این ANAA فقط موقع دقیق‌تر کردن مدل (یه مرحله به اسم Fine-tuning که یعنی مدل رو برای یه وظیفه خاص مثل پیش‌بینی بیماری خاص تنظیم می‌کنن) اضافه میشه. یعنی لازم نیست کل مدل رو از نو ساخت یا کلی منابع خرج کرد.

تیم پژوهشی نشون دادن که استفاده از ANAA تو چندین وظیفه پزشکی مختلف، باعث شده مدل‌ها با همین داده‌های کم کارایی بهتری نشون بدن. نکته باحال دیگه اینه که بررسی کردن نویز و صاف‌کردن توجه باعث شده مدل بتونه ارتباط‌های زمانی (Temporal dependencies یعنی اینکه یک رویداد پزشکی چطور به وقایع آینده و گذشته بیمار ربط داره) رو بهتر یاد بگیره و حتی بشه رفتار مدل رو تفسیر کرد که واقعاً به چی داره توجه می‌کنه.

در کل، راهکار ANAA خودش رو به عنوان یه روش ساده اما کاربردی نشون داده واسه وقتایی که مدل Transformer داریم اما نه داده زیاد داریم، نه وقت بازطراحی کلی. یه کوچولو نویز به‌جا، یه کم پخش‌کردن توجه با فیلتر گاوسی، و نتیجه‌اش مدل‌های باهوش‌تر که چیزهای ظریف رو هم می‌بینن! همین ایده ساده ممکنه باعث پیشرفت حسابی تو کاربردهای پزشکی و سیستم‌های سلامتی دیجیتال بشه.

منبع: +