آیا ماشین‌لرنینگ می‌تونه فیبریلاسیون دهلیزی پنهون رو توی درمانگاه‌ها شناسایی کنه؟ بررسی دوستانه یه سری تحقیق

خب بیاید یه موضوع خیلی مهم رو با هم مرور کنیم: فیبریلاسیون دهلیزی یا AF (که یه جور نامنظمی ضربان قلبه و می‌تونه باعث سکته یا نارسایی قلبی بشه) خیلی وقت‌ها توی آدم‌ها هست ولی خودشون خبر ندارن. اگر دکترها زودتر این مشکل رو بفهمن، می‌تونن جلوی کلی دردسر رو بگیرن. اما متاسفانه روش‌های فعلی غربالگری، اونقدرها که باید خوب کار نمی‌کنن و حتی ممکنه کلی نفر رو جا بندازن!

خب اینجا پای یه تکنولوژی خفن به اسم ماشین‌لرنینگ یا یادگیری ماشین وسط میاد! ماشین‌لرنینگ یعنی مدلی که خودش با داده‌های گذشته آموزش می‌بینه و یاد می‌گیره تا بتونه پیش‌بینی کنه یا تشخیص بده. حالا سوال اینه: این مدل‌ها اگر بیان روی داده‌های پزشکی که توی پرونده‌های الکترونیک بیمارها ثبت شده (EHR یعنی همون پرونده سلامتی دیجیتال) چقدر می‌تونن توی کلینیک یا درمانگاه‌ها کمک کنن که چه کسی مشکل قلبی پنهون داره و چه کسی نه؟

یه گروه از محقق‌ها تصمیم گرفتن حسابی این سوال رو بررسی کنن و به جای یه تحقیق فقط، اومدن یه بررسی نظام‌مند (یا همون Systematic Review) انجام دادن. یعنی رفتن و کلی مقاله و تحقیق رو از اولین روزهایی که این مدل‌ها به پرونده‌های الکترونیک وصل شدن تا ماه مه ۲۰۲۳ زیر و رو کردن. نکته جالب اینه که کارشون رو طبق چندتا دستورالعمل معتبر جهانی انجام دادن (مثلاً PRISMA یعنی یه راهنما برای نقد و بررسی تحقیقات، Joanna Briggs هم یه موسسه معروف تو این کاره!) که نتیجه‌ها حسابی معتبر بمونه.

اونا ۴۵۳۶ تا مقاله رو غربال کردن ولی فقط ۱۶ تا واقعا به دردشون خورد! توی این ۱۶ تا، بیشترشون یعنی ۸۷ درصدشون، مقاله‌هایی بودن که با نگاه به گذشته و داده‌های واقعی نوشته بودن (یعنی Retrospective cohort study). فقط یکی از اون‌ها آینده‌نگر بود (Prospective) و یکی هم تحقیق تصادفی و کنترل‌شده (Randomized Controlled Trial) بود. این یعنی هنوز خیلی از این مدل‌ها تو دنیای واقعی به طور جدی امتحان نشدن.

جالب این بود که پرتکرارترین مدل ماشین‌لرنینگ هم “Random Forest” بود، یه مدل که در واقع چندین تصمیم‌گیرنده کوچیک داره و در کنار هم رای میدن (یعنی یه جور الگوریتم باحال که خوب بلده بین داده‌های خیلی زیاد ارتباط پیدا کنه). حدود ۴۳ درصد مطالعات از رندوم فارست استفاده کرده بودن.

حالا نکته مهم! فقط ۲۵ درصد مطالعات مدل هاشون رو توی یه دسته داده خارجی امتحان کردن (به این کار میگن External Validation یعنی بررسی اعتبار مدل توی داده‌های جدید و متفاوت از دیتای اصلی)، که معلوم شه واقعاً مدل رو هر آدمی جواب میده یا نه. این یعنی خیلی وقت‌ها این مدل‌ها فقط توی یه دیتای خاص جواب دادن و ممکنه جایی دیگه اصلاً کار نکنن.

نصف مدل‌ها بهتر از روش‌های رایج تشخیص بودن، چون .AUROC (که یه شاخص برای دقت مدل تو تشخیصه، هر چی به ۱ نزدیک‌تر بهتر!) توی این مدل‌ها بین 0.71 تا 0.948 بود. این یعنی بعضیاشون خوب عمل کردن!

یه چیز جالب دیگه هم این بود که وقتی مدل ML رو با ابزارهای کلینیکی معمولی ترکیب کردن (تو سه تا مطالعه)، قدرت تشخیصشون خیلی بهتر شد. یعنی مدل‌ها و دکترها وقتی با هم کار کنن عالی‌تر کار می‌کنن.

تو بعضی مدل‌ها یه کشف باحال داشتن: مثلاً “نقرس” (Gout) که یه بیماری مفصلیه و معمولا به قلب ربطی نداره، ظاهرش توی مدل‌ها معلوم شد احتمال AF رو بیشتر می‌کنه! یا این که تغییرات وزنی (BMI)، فشارخون و حتی داشتن سابقه نارسایی قلبی اگر به صورت دینامیک بررسی بشه (نه فقط یه بار اندازه گرفتن)، خیلی بهتر از مقادیر ثابت می‌تونن پیش‌بینی‌کننده باشن.

اماااا یه مشکل بزرگ هم وجود داره: بیشتر این مطالعات، خطر سوگیری یا بایاس (Bias یعنی نتایج تحت تاثیر عواملی غیر از واقعیت قرار گرفتن) خیلی بالا داشتن و فقط نیمی‌شون واقعاً نسبت به مراقبت‌های رایج، ارزش اضافه‌ای داشتن. تازه کلی پارامتر مهم هم هنوز به طور روتین تو درمانگاه‌ها قابل دسترس نیست، پس کاربردشون محدوده.

در کل، این مدل‌های هوش مصنوعی با پرونده الکترونیکی می‌تونن آینده تشخیص زودرس فیبریلاسیون دهلیزی رو رونق بدن، اما تا وقتی آدامه با داده واقعی تو جهان واقعی و درمانگاه‌ها (نه فقط تو کامپیوتر) و با اعتبارسنجی درست این‌ها رو نسنجیم، نمی‌شه مطمئن بود.

نتیجه اخلاقی ماجرا: اگر دنبال پیشرفت واقعی این مدل‌ها هستیم، باید اعتبارپرونده‌هاشون رو بیرون از دیتابیس خودشون امتحان کنیم، توی مطالعات بالینی واقعی به کار بگیریم و فقط سراغ اون پیش‌بینی‌هایی بریم که واقعاً می‌تونیم تو پرونده دیجیتال به راحتی پیدا کنیم. دنیای آینده پزشکی جذابه، ولی نیاز به احتیاط و آزمون بیشتر داره!

منبع: +