بذار اول یه کم شفافسازی کنیم: سپسیس یه مشکل فوقالعاده جدیه که تو اورژانسها همه میخوان زود پیداش کنن، چون ممکنه جون آدم رو نجات بده. ولی تشخیصش اینقدر آسون نیست! چون نه یه استاندارد طلایی وجود داره که همه بیان بگن ‘آها، این قطعا سپسیسه’، نه همهی مریضها نشونههاشون با هم یکیه، نه کلی بیماری جانبی هست که اصل کاری رو قاطی میکنه.
تو این تحقیق جدید، اومدن و یه مدل یادگیری عمیق (Deep Learning) ساختن که هدفش اینه سپسیس رو تو ساعتای اولیه بستری شدن تو بیمارستان (یعنی همون ۲۴ ساعت اول) تشخیص بده. اگه نمیدونی دقیقا یادگیری عمیق چیه، بذار بگم: یادگیری عمیق یه شاخه از هوش مصنوعیه که مدلها و شبکههایی میسازه که خودشون میتونن از کلی داده، الگو و نتیجه گرفتن رو یاد بگیرن — بدون اینکه همه چی رو دقیقاً براشون برنامهنویسی کنیم.
برای اینکه مدلشون بتونه خوب کار کنه، از آزمایشای خون معمولیای که تقریباً همه مریضها میدن استفاده کردن: CBC (یعنی شمارش کامل سلولهای خونی)، CMP (یعنی بررسی مواد متابولیک مثل قند و اوره)، تستهای چربی خون، علائم حیاتی (مثل ضربان قلب)، سن و جنسیت.
حالا یه چالش بزرگ اینجا بود: چی واقعا به عنوان سپسیس «لیبل» بشه و نمونه واقعی باشه؟ چون تعریف درست و واحدی برای سپسیس وجود نداره. برای همین، محققها اومدن دو مدل تعریف مختلف رو امتحان کردن: یکی Sepsis-3 و دیگری Adult Sepsis Event. سریع یه توضیح کوچیک بدم: Sepsis-3 یکی از تعریفهای مدرنتر برای سپسیسه که بیشتر رو واکنش بدن به عفونت و اختلال اعضا تمرکز داره؛ اون یکی یعنی Adult Sepsis Event هم یه چارچوبه که سعی کرده مفهومیتر به موضوع نگاه کنه. اینها هرکدوم یه جاهایی مزیت دارن و یه جاهایی محدودیت. برای مثال: ممکنه تو بعضی مریضها که بیماری جانبی دارن (مثلاً مشکلات کلیوی یا کبدی، یا اختلالات انعقادی)، با این تعریفها درست تشخیص داده نشن چون نشونههاشون شبیه سپسیسه.
محققین فقط به همین جا بسنده نکردن؛ اومدن نگاه کردن ببینن اگه این دو تعریف رو با هم ترکیب کنیم و یه مدل «اجماعی» (یعنی یه مدلی که نظر هر دوتا تعریف رو قبول کنه)، چی میشه. اینجوری ببینن که کیفیت لیبلی که به مدل یاد میدن چقدر روی عملکردش تاثیر داره.
یادگیری ماشین موقع تست حسابی زیر و بمش رو درآوردن. بررسی کردن ببینن آیا مدل روی کل گروهها خوب کار میکنه یا نه — مخصوصاً برای مریضهایی که بیماریهای جانبی دارن (که بهشون میگن Confounding Comorbidities. یعنی بیماریهایی که باعث میشن تشخیص اصلی سختتر بشه) مثل مشکلات مزمن کلیوی، کبدی یا خونریزی و انعقاد خون؛ و همینطور کسایی که عفونتشون به صورت رسمی تو سیستم ثبت شده (یعنی با Billing Code تایید شده).
حالا نتایج چی شد؟
این مدل اجماعی تو تشخیص مریضهای در معرض خطر سپسیس تو ۲۴ ساعت اول، حساسیت ۸۳.۷٪ داشت (حساسیت یعنی درصد مریض هایی که واقعا سپسیس داشتن و مدل تونست درست پیداشون کنه)، اختصاصیت ۸۰٪ (یعنی درصد کسایی که سپسیس نداشتن و مدل هم درست گفت ندارن)، مثبت کاذب ۳۶٪ (یعنی از بین اونایی که مدل گفت سپسیس دارن، فقط ۳۶٪ واقعا سپسیس داشتن)، منفی درست ۹۷٪ (یعنی اونایی که مدل گفت سپسیس ندارن واقعا درست گفت) و AUC معادل ۰.۹ (AUC یه معیار کلی از دقت مدل تو تشخیصه — هرچی نزدیکتر به ۱ باشه بهتره).
وقتی ریز شدیم تو گروههایی که عفونتشون به صورت شفاف تایید شده بود، دیدیم PPV رفت تا ۷۷٪! (PPV یعنی احتمال اینکه prediction مثبت مدل واقعا درست باشه.) ولی تو گروههایی که بیماریهای جانبی داشتن، دیدیم اختصاصیت حسابی کم میشه و بین ۴۷ تا ۷۰ درصد میاد پایین. این یعنی تشخیص درست سپسیس تو مریضهایی که بقیه بیماریها رو دارن خیلی سختره.
بحثهای کلی این تحقیق این بود که، اولاً هیچ تعریف عقبنگری یا retrospective خوبی برای سپسیس نداریم (یعنی وقتی بخوایم برگردیم با اطلاعات قبلی تشخیص بذاریم، عملکرد مدلها محدود میشه)، دوماً باید برای مریضهایی که بیماری جانبی دارن یه رویکرد اختصاصی و هوشمندتر بسازیم و مدلهای اتوماتیک تشخیص سپسیس رو همینجوری الکی به همه تعمیم ندیم! شاید بهترین مدل این باشه که نمونههای آموزشی با تعریفهای مختلف ترکیب شن؛ ولی همچنان باید حواسمون باشه به پیچیدگی مریضهای واقعی.
پس اگر کسی میخواد بره تو کار هوش مصنوعی پزشکی و مدلی برای تشخیص زودهنگام سپسیس بسازه، یادتون نره تنوع مریضها و بیدقتی تعریفهای فعلی چقدر مهمن! و همیشه یه راهحل ساده وجود نداره — باید با داده واقعی و فکر باز جلو رفت.
منبع: +