خب بچهها، این مقاله خیلی جالبیه درباره اینکه چطور میشه با مدلهای مختلف آماری و هوش مصنوعی (مثل یادگیری ماشین – یعنی همون الگوریتمهایی که خودشون از دادهها الگو در میارن) تشخیص داد کسی احتمالاً تست PCR کرونا (SARS-CoV-2)ش مثبت میشه یا نه. توی دوران کرونا که همهمون کلی با این مسئله درگیری داشتیم، اینکه بتونیم بدون تست دادن بفهمیم کی احتمال مثبت بودنش بالاست، میتونه کلی کمککننده باشه.
اول بذار یه توضیح بدم: تو این تحقیق اومدن سه تا مدل مختلف رو امتحان کردن:
- رگرسیون لجستیک فرکوئنسیست (frequentist logistic regression – یعنی همون رگرسیون لجستیک کلاسیک که تو دانشگاه بهمون یاد دادن).
- رگرسیون لجستیک بیزی (Bayesian logistic regression – یه مدل پیشرفتهتر که به جای یه جواب، محدودهای برای جواب میده و میتونه عدم قطعیت هم حساب کنه. توش با prior یعنی “فرضیات قبلی” یا “اطلاعات قبلی” کار میکنن).
- کلاسیفایر جنگل تصادفی (Random Forest Classifier – یکی از مدلهای یادگیری ماشین که با کلی درخت تصمیم کار میکنه و معمولاً خیلی خوب جواب میده).
برای اینکه مدلهاشون رو درست تست کنن، اطلاعات 950 نفر رو داشتن و کلی مساله جالب رو تو دادههاشون حل کردن. مثلاً بعضی جوابها کمتر بودند (یعنی داده نامتوازن بود)، واسه همین از SMOTE استفاده کردن که یه تکنیک مخصوص درست کردن داده مصنوعی برای گروههای کمتر هست.
به دادههاشون هم نگاه کنیم: اطلاعاتی مثل اینکه IgG طرف مثبت بوده یا نه (یعنی آنتیبادی داشته یا نه)، سابقه سفر داخلی یا خارجی، علائم مختلف مثل از بین رفتن بویایی، خستگی یا گلودرد، جنسیت و سن رو داشتن.
خب حالا نتیجه چی شد؟ حدود 75 درصد شرکتکنندهها تستشون مثبت شد! تو مدل کلاسیک لجستیک، قویترین فاکتورهایی که پیشبینی میکردن تست مثبت میشه چی بودن؟ سفر بینالمللی با نسبت شانس (Odds Ratio) حدود 4.8 – یعنی کسایی که سفر خارجی رفتن تقریباً 5 برابر بیشتر احتمال داشتن PCRشون مثبت بشه، از بین رفتن بویایی (نسبت شانس 2.3)، و سفر داخلی (1.5 برابر).
مدل بیزی هم تقریباً همون جوابها رو داد و تأیید کرد که این عوامل واقعاً معتبرن (تو مدل بیزی همیشه یه محدوده عدم قطعیت با جواب میدن به اسم بازه اعتباری – credible interval).
اما از همه بهتر و شگفتانگیزتر مدل جنگل تصادفی بود! این مدل یادگیری ماشین دقت خیلی بالایی داشت و منطقه زیر منحنی ROC (AUC) رو بین 0.947 تا 0.963 گرفت – خلاصه بگم یعنی فوقالعاده! راستی، ROC curve یه ابزاره برای سنجش عملکرد مدلهای طبقهبندی؛ هر چی AUC نزدیکتر به ۱ باشه، مدل بهتره.
جالبیش اینجا بود که تو مدلهای رگرسیون، سن و جنسیت خیلی مهم نبودن، اما تو مدل جنگل تصادفی اهمیت پیدا کردن – یعنی شاید توی دادههای پیچیدهتر یا زمانی که ترکیب عوامل با هم مهم میشه (مثل تعامل یا اثرات غیرخطی)، این مدل بهتر درک میکنه.
در آخر، پیغام اصلی مقاله اینه که مدلهای یادگیری ماشین، مخصوصاً جنگل تصادفی، میتونن شدیداً تو پیشبینی اینکه کسی تست کروناش مثبت میشه یا نه، کمک کنن – اونم فقط با اطلاعات سادهای که معمولاً تو پرونده هر بیماری هست، بدون نیاز به آزمایشگاه و تستهای گرون. به خصوص وقتی امکانات تست کم باشه، این مدلها خیلی به درد میخورن و میتونن سریع کمک کنن افراد پرخطر رو شناسایی کنن.
در ضمن، مدل بیزی هم به ما کمک کرد مطمئنتر نتیجهگیری کنیم و حتی میزان اعتماد به پیشبینیها رو بدونیم، چون عدم قطعیت رو حساب میکنه.
در کل، خلاصه حرفشون اینه: اگر میخواین با دقت بالا فقط با اطلاعات اولیه، قبل از انجام PCR حدس بزنین کی احتمالاً مبتلاست، هوش مصنوعی و مدلهای پیچیدهتر حسابی به کار میان! مخصوصاً در شرایطی که آزمایشگاهها خیلی شلوغن یا منابع محدوده.
منبع: +