هوش مصنوعی برای تشخیص زودهنگام سپسیس: چرا بیماری‌های جانبی همه‌چی رو پیچیده می‌کنن؟

بذار اول یه کم شفاف‌سازی کنیم: سپسیس یه مشکل فوق‌العاده جدیه که تو اورژانس‌ها همه می‌خوان زود پیداش کنن، چون ممکنه جون آدم رو نجات بده. ولی تشخیصش اینقدر آسون نیست! چون نه یه استاندارد طلایی وجود داره که همه بیان بگن ‘آها، این قطعا سپسیسه’، نه همه‌ی مریض‌ها نشونه‌هاشون با هم یکیه، نه کلی بیماری جانبی هست که اصل کاری رو قاطی می‌کنه.

تو این تحقیق جدید، اومدن و یه مدل یادگیری عمیق (Deep Learning) ساختن که هدفش اینه سپسیس رو تو ساعتای اولیه بستری شدن تو بیمارستان (یعنی همون ۲۴ ساعت اول) تشخیص بده. اگه نمی‌دونی دقیقا یادگیری عمیق چیه، بذار بگم: یادگیری عمیق یه شاخه از هوش مصنوعیه که مدل‌ها و شبکه‌هایی می‌سازه که خودشون می‌تونن از کلی داده، الگو و نتیجه گرفتن رو یاد بگیرن — بدون اینکه همه چی رو دقیقاً براشون برنامه‌نویسی کنیم.

برای اینکه مدلشون بتونه خوب کار کنه، از آزمایشای خون معمولی‌ای که تقریباً همه مریض‌ها می‌دن استفاده کردن: CBC (یعنی شمارش کامل سلول‌های خونی)، CMP (یعنی بررسی مواد متابولیک مثل قند و اوره)، تست‌های چربی خون، علائم حیاتی (مثل ضربان قلب)، سن و جنسیت.

حالا یه چالش بزرگ اینجا بود: چی واقعا به عنوان سپسیس «لیبل» بشه و نمونه واقعی باشه؟ چون تعریف درست و واحدی برای سپسیس وجود نداره. برای همین، محقق‌ها اومدن دو مدل تعریف مختلف رو امتحان کردن: یکی Sepsis-3 و دیگری Adult Sepsis Event. سریع یه توضیح کوچیک بدم: Sepsis-3 یکی از تعریف‌های مدرن‌تر برای سپسیسه که بیشتر رو واکنش بدن به عفونت و اختلال اعضا تمرکز داره؛ اون یکی یعنی Adult Sepsis Event هم یه چارچوبه که سعی کرده مفهومی‌تر به موضوع نگاه کنه. این‌ها هرکدوم یه جاهایی مزیت دارن و یه جاهایی محدودیت. برای مثال: ممکنه تو بعضی مریض‌ها که بیماری جانبی دارن (مثلاً مشکلات کلیوی یا کبدی، یا اختلالات انعقادی)، با این تعریف‌ها درست تشخیص داده نشن چون نشونه‌هاشون شبیه سپسیسه.

محققین فقط به همین جا بسنده نکردن؛ اومدن نگاه کردن ببینن اگه این دو تعریف رو با هم ترکیب کنیم و یه مدل «اجماعی» (یعنی یه مدلی که نظر هر دوتا تعریف رو قبول کنه)، چی می‌شه. اینجوری ببینن که کیفیت لیبلی که به مدل یاد می‌دن چقدر روی عملکردش تاثیر داره.

یادگیری ماشین موقع تست حسابی زیر و بمش رو درآوردن. بررسی کردن ببینن آیا مدل روی کل گروه‌ها خوب کار می‌کنه یا نه — مخصوصاً برای مریض‌هایی که بیماری‌های جانبی دارن (که بهشون می‌گن Confounding Comorbidities. یعنی بیماری‌هایی که باعث می‌شن تشخیص اصلی سخت‌تر بشه) مثل مشکلات مزمن کلیوی، کبدی یا خونریزی و انعقاد خون؛ و همینطور کسایی که عفونتشون به صورت رسمی تو سیستم ثبت شده (یعنی با Billing Code تایید شده).

حالا نتایج چی شد؟
این مدل اجماعی تو تشخیص مریض‌های در معرض خطر سپسیس تو ۲۴ ساعت اول، حساسیت ۸۳.۷٪ داشت (حساسیت یعنی درصد مریض هایی که واقعا سپسیس داشتن و مدل تونست درست پیداشون کنه)، اختصاصیت ۸۰٪ (یعنی درصد کسایی که سپسیس نداشتن و مدل هم درست گفت ندارن)، مثبت کاذب ۳۶٪ (یعنی از بین اونایی که مدل گفت سپسیس دارن، فقط ۳۶٪ واقعا سپسیس داشتن)، منفی درست ۹۷٪ (یعنی اونایی که مدل گفت سپسیس ندارن واقعا درست گفت) و AUC معادل ۰.۹ (AUC یه معیار کلی از دقت مدل تو تشخیصه — هرچی نزدیک‌تر به ۱ باشه بهتره).

وقتی ریز شدیم تو گروه‌هایی که عفونتشون به صورت شفاف تایید شده بود، دیدیم PPV رفت تا ۷۷٪! (PPV یعنی احتمال اینکه prediction مثبت مدل واقعا درست باشه.) ولی تو گروه‌هایی که بیماری‌های جانبی داشتن، دیدیم اختصاصیت حسابی کم می‌شه و بین ۴۷ تا ۷۰ درصد میاد پایین. این یعنی تشخیص درست سپسیس تو مریض‌هایی که بقیه بیماری‌ها رو دارن خیلی سختره.

بحث‌های کلی این تحقیق این بود که، اولاً هیچ تعریف عقب‌نگری یا retrospective خوبی برای سپسیس نداریم (یعنی وقتی بخوایم برگردیم با اطلاعات قبلی تشخیص بذاریم، عملکرد مدل‌ها محدود می‌شه)، دوماً باید برای مریض‌هایی که بیماری جانبی دارن یه رویکرد اختصاصی و هوشمندتر بسازیم و مدل‌های اتوماتیک تشخیص سپسیس رو همینجوری الکی به همه تعمیم ندیم! شاید بهترین مدل این باشه که نمونه‌های آموزشی با تعریف‌های مختلف ترکیب شن؛ ولی همچنان باید حواسمون باشه به پیچیدگی مریض‌های واقعی.

پس اگر کسی می‌خواد بره تو کار هوش مصنوعی پزشکی و مدلی برای تشخیص زودهنگام سپسیس بسازه، یادتون نره تنوع مریض‌ها و بی‌دقتی تعریف‌های فعلی چقدر مهمن! و همیشه یه راه‌حل ساده وجود نداره — باید با داده واقعی و فکر باز جلو رفت.

منبع: +