مقایسه مدل‌های آماری سنتی و هوش مصنوعی: کدوم بهتر می‌تونن تست کرونا رو پیش‌بینی کنن؟

خب بچه‌ها، این مقاله خیلی جالبیه درباره اینکه چطور میشه با مدل‌های مختلف آماری و هوش مصنوعی (مثل یادگیری ماشین – یعنی همون الگوریتم‌هایی که خودشون از داده‌ها الگو در میارن) تشخیص داد کسی احتمالاً تست PCR کرونا (SARS-CoV-2)ش مثبت میشه یا نه. توی دوران کرونا که همه‌مون کلی با این مسئله درگیری داشتیم، اینکه بتونیم بدون تست دادن بفهمیم کی احتمال مثبت بودنش بالاست، می‌تونه کلی کمک‌کننده باشه.

اول بذار یه توضیح بدم: تو این تحقیق اومدن سه تا مدل مختلف رو امتحان کردن:

  1. رگرسیون لجستیک فرکوئنسیست (frequentist logistic regression – یعنی همون رگرسیون لجستیک کلاسیک که تو دانشگاه به‌مون یاد دادن).
  2. رگرسیون لجستیک بیزی (Bayesian logistic regression – یه مدل پیشرفته‌تر که به جای یه جواب، محدوده‌ای برای جواب میده و می‌تونه عدم قطعیت هم حساب کنه. توش با prior یعنی “فرضیات قبلی” یا “اطلاعات قبلی” کار می‌کنن).
  3. کلاسیفایر جنگل تصادفی (Random Forest Classifier – یکی از مدل‌های یادگیری ماشین که با کلی درخت تصمیم کار می‌کنه و معمولاً خیلی خوب جواب میده).

برای اینکه مدل‌هاشون رو درست تست کنن، اطلاعات 950 نفر رو داشتن و کلی مساله جالب رو تو داده‌هاشون حل کردن. مثلاً بعضی جواب‌ها کمتر بودند (یعنی داده نامتوازن بود)، واسه همین از SMOTE استفاده کردن که یه تکنیک مخصوص درست کردن داده مصنوعی برای گروه‌های کمتر هست.

به داده‌هاشون هم نگاه کنیم: اطلاعاتی مثل اینکه IgG طرف مثبت بوده یا نه (یعنی آنتی‌بادی داشته یا نه)، سابقه سفر داخلی یا خارجی، علائم مختلف مثل از بین رفتن بویایی، خستگی یا گلودرد، جنسیت و سن رو داشتن.

خب حالا نتیجه چی شد؟ حدود 75 درصد شرکت‌کننده‌ها تستشون مثبت شد! تو مدل کلاسیک لجستیک، قوی‌ترین فاکتورهایی که پیش‌بینی می‌کردن تست مثبت میشه چی بودن؟ سفر بین‌المللی با نسبت شانس (Odds Ratio) حدود 4.8 – یعنی کسایی که سفر خارجی رفتن تقریباً 5 برابر بیشتر احتمال داشتن PCRشون مثبت بشه، از بین رفتن بویایی (نسبت شانس 2.3)، و سفر داخلی (1.5 برابر).

مدل بیزی هم تقریباً همون جواب‌ها رو داد و تأیید کرد که این عوامل واقعاً معتبرن (تو مدل بیزی همیشه یه محدوده عدم قطعیت با جواب میدن به اسم بازه اعتباری – credible interval).

اما از همه بهتر و شگفت‌انگیزتر مدل جنگل تصادفی بود! این مدل یادگیری ماشین دقت خیلی بالایی داشت و منطقه زیر منحنی ROC (AUC) رو بین 0.947 تا 0.963 گرفت – خلاصه بگم یعنی فوق‌العاده! راستی، ROC curve یه ابزاره برای سنجش عملکرد مدل‌های طبقه‌بندی؛ هر چی AUC نزدیک‌تر به ۱ باشه، مدل بهتره.

جالبیش اینجا بود که تو مدل‌های رگرسیون، سن و جنسیت خیلی مهم نبودن، اما تو مدل جنگل تصادفی اهمیت پیدا کردن – یعنی شاید توی داده‌های پیچیده‌تر یا زمانی که ترکیب عوامل با هم مهم میشه (مثل تعامل یا اثرات غیرخطی)، این مدل بهتر درک می‌کنه.

در آخر، پیغام اصلی مقاله اینه که مدل‌های یادگیری ماشین، مخصوصاً جنگل تصادفی، می‌تونن شدیداً تو پیش‌بینی اینکه کسی تست کروناش مثبت میشه یا نه، کمک کنن – اونم فقط با اطلاعات ساده‌ای که معمولاً تو پرونده هر بیماری هست، بدون نیاز به آزمایشگاه و تست‌های گرون. به خصوص وقتی امکانات تست کم باشه، این مدل‌ها خیلی به درد می‌خورن و می‌تونن سریع کمک کنن افراد پرخطر رو شناسایی کنن.

در ضمن، مدل بیزی هم به ما کمک کرد مطمئن‌تر نتیجه‌گیری کنیم و حتی میزان اعتماد به پیش‌بینی‌ها رو بدونیم، چون عدم قطعیت رو حساب می‌کنه.

در کل، خلاصه حرفشون اینه: اگر می‌خواین با دقت بالا فقط با اطلاعات اولیه، قبل از انجام PCR حدس بزنین کی احتمالاً مبتلاست، هوش مصنوعی و مدل‌های پیچیده‌تر حسابی به کار میان! مخصوصاً در شرایطی که آزمایشگاه‌ها خیلی شلوغن یا منابع محدوده.

منبع: +