اگه دنبال یه راه سریع و باحال برای تشخیص انواع مختلف ویروس کرونا (SARS-CoV-2) هستی، این مقاله دقیقاً همون چیزیه که میخوام بهت توضیح بدم! خب همونطور که میدونی، ویروس کرونا کلی مدل و جهش (یا به قول تخصصیها “ویریانت”) داره و بررسی ژنومش (یعنی همون DNA یا RNA ویروس) خیلی مهمه، مخصوصاً واسه ردگیری وضعیت شیوع و تغییراتش تو دنیا.
ولی واقعیتش اینه که بررسی کل ژنوم ویروس هم کار سختیه، هم به کلی امکانات و کامپیوترهای پرقدرت نیاز داره. واسه همین دانشمندا اومدن یه راه هوشمندانه پیدا کردن: فقط بخش اسپایک (Spike gene) رو بررسی میکنن. حالا اسپایک چیه؟ همون پروتئینیه که ویروس باهاش به سلولهای بدن میچسبه و واردشون میشه!
توی این تحقیق، حدود ۳۵,۸۰۰ تا توالی اسپایک ویروس که کلی نوع و شاخه مختلف داشتن رو جمعآوری کردن (یعنی دیتا حسابی زیاد بوده!). بعد اومدن یه مدل ترکیبی هوش مصنوعی ساختن که از CNN و BiLSTM استفاده میکنه. CNN یعنی شبکه عصبی کانولوشنی—یه نوع مدرن از شبکه عصبی که معمولا برای تصاویر استفاده میشه؛ BiLSTM هم یه مدل پیشرفته دیگه برای تحلیل توالیها (یعنی دادههایی که به صورت دنبالهای هستن، مثل متن یا DNA).
مدلشون رو با کلی تکنیک رگولاریزیشن و رفع مشکل عدم تعادل دستهها (یعنی بعضی نوعهای ویروس که تو دیتاست کم بودن رو هم درست یاد بگیره) آموزش دادن. بعدشم رفتن سراغ مقایسه نتیجههاش با ابزارهای معروف مثل Nextclade (یه سیستم برای شناسایی انواع کرونا بر اساس ژنوم که حسابی توی اپیدمیولوژی مولکولی معروفه).
نتیجه چی شد؟ بچهها مدلشون رو توی ۱۰ بار آزمایش مختلف بررسی کردن. دقت آموزشیش ۹۹.۷۴٪، دقت اعتبارسنجی ۹۹٪ و دقت تستش ۹۹.۹۱٪ بود! یعنی عملاً هیچ دیتایی رو اشتباهی دستهبندی نکرده! تازه وقتی مدلشون رو با Nextclade مقایسه کردن، دیدن Nextclade فقط حدود ۳۵٪ ویروسهای Omicron رو درست تشخیص داده بود ولی مدل این بچهها صد درصد Omicron رو درست تشخیص داده بود! Omicron هم که دیگه همه میدونیم کلی سر و صدا به پا کرد!
جالبتر اینکه مدل هوش مصنوعیشون نه تنها انواع ویروس رو درست دستهبندی میکرد، بلکه بهشون نشون میداد کدوم قسمتهای اسپایک واسه شناسایی مهمتر بوده. اینو میگن سالینسی مپ (Saliency Map) و تحلیل ویژگیها—یعنی مدل نشون میده چی براش مهمتره و این خودش باحالترین بخششه چون میتونه به زیستشناسها بگه چه جهشهایی توضیحدهنده خاصیت هر شاخه از ویروسه.
در آخر، این تحقیق نشون داد که حتی اگه مار و خرچنگ بگیرت (یعنی منابع و امکانات محدود باشه!)، باز هم میتونی با مدلهای عمیق فقط با توالی اسپایک سریع و مطمئن انواع مختلف کرونا رو تشخیص بدی. این روشها علاوه بر کمک به روشهای دقیقتر و گرونتر مثل شجرهنامه ژنتیکی (Phylogenetics)، میتونن یه غربال اولیه ایجاد کنن که کی زودتر بره سراغ بررسی بیشتر! نتیجهش اینه که میشه خیلی سریعتر و هوشمندانهتر روی تغییرات کرونا نظارت داشت.
منبع: +