کووینار: دیتاست توییتری که زورشو گذاشت رو پیش‌بینی وضعیت کرونا!

خب بذارید یه ماجرای جالب رو براتون تعریف کنم! وقتی کرونا اومد و همه دنیا رو بهم ریخت، یکی از بزرگ‌ترین مشکلات این بود که هیچ‌کس دقیق نمی‌دونست کجاها نیاز به کمک داره یا مثلاً ذخایر دارویی و وسایل مراقبتی کم اومده. رگولاتورهای سلامت (Regulatory bodies یعنی همون نهادهایی که کنترل و نظارت سلامت رو به عهده دارن) حسابی گیر افتاده بودن.

یه سری دانشمند باحال گفتن: خب چرا از توییتر کمک نگیریم که مردم خودشون دارن لحظه‌ای میگن چی کم دارن، کجا مشکل هست یا کجا ملت خودشون دارن ماسک پخش می‌کنن؟ خلاصه اومدن و یه کار باحال راه انداختن. با استفاده از یه ابزار خیلی قوی به اسم SnScrape (یه ابزاریه که می‌تونه توییت‌ها رو به طور کامل جمع کنه و تحلیل کنه)، حدود ۲۷.۵ میلیون توییت جمع کردن! از زمان نوامبر ۲۰۱۹ (همون اولای کرونا) تا مارس ۲۰۲۳.

ولی همهٔ این توییتا که به درد نمی‌خورد. بعدش اومدن یه بازه خیلی حساس انتخاب کردن؛ آوریل ۲۰۲۱! این ماه اوج بحران کرونا بود. از دل این توییتا، شروع کردن سر و شکل دادن به چیزی که اسمش رو گذاشتن CoViNAR، مخفف «Context-aware social media dataset for pandemic severity level prediction and analysis» یعنی یه دیتاست توییتری که خودش می‌دونه چه توییتی به درد تشخیص شدت بحران کرونا می‌خوره و کدوم نه.

اینجا یه تکنیک جذاب به کار بردن به اسم BERTopic؛ این یه روش مدرنه برای فهمیدن موضوعات و دسته‌بندی کردن توییت‌ها به طور هوشمند (مثلاً میشه باهاش فهمید کی داره از کمبود ماسک می‌گه، کی داره از فراوونی دارو خبر می‌ده و کی کلاً حرف بی‌ربط زده). بعد بین این همه توییت، ۱۴ هزار تا رو که به درد می‌خوردن انتخاب و برچسب‌گذاری کردن: دسته‌بندی‌هاش اینا بودن: «نیازمند» (یعنی کسی که یه چیزی لازم داره)، «موجودی» (یعنی مثلا جایی اعلام کرده ماسک داریم!) و «بی‌ربط».

حالا این دیتا رو دادن به یه عالمه هوش مصنوعی و مدل‌های یادگیری ماشین (Machine Learning Classifier یعنی همون مدل‌هایی که بر اساس دیتا آموزش می‌بینن تا چیزای جدید رو تشخیص بدن) تا ببینن می‌تونن به درد ما بخورن یا نه. سه تا روش معروف توی حوزهٔ Word Embedding – که کارشون اینه کلمات رو با معنی‌شون تو فضایی به کامپیوتر نشون بدن – هم استفاده کردن تا مدل‌هاشون زمینه و مفهوم رو بفهمن.

نتیجه؟ یه مدل با اسم DistilBERT حسابی ترکوند! (DistilBERT یه نوع مدل هست که خیلی هوشمندانه می‌تونه مفهوم متنی رو بفهمه) این مدل تونست توی تست‌ها دقت ۹۶.۴۲٪ داشته باشه؛ یعنی چیزی که واقعاً خیلی بالاست. دقت (Precision) و بازیابی (Recall) و امتیاز F1 هم همگی حدود ۹۶.۴۳٪ شدن. خلاصه همه چی عالی!

یه بخش دیگه پروژه‌شون این بود که بررسی کنن ببینن توییت‌هایی که مردم در مورد نیاز و موجودی کالاها می‌نویسن، چقدر با موج‌های جدید کرونا همزمان هست. داده‌های مربوط به آمریکا، بریتانیا و هند رو با هم مقایسه کردن (تقریباً از شروع پاندمی تا ۲۰۲۳) و به نتیجه‌ی جالبی رسیدن: هر وقت که تعداد توییت‌های «نیاز» یا «موجودی» زیاد شده، همون موقع موج جدیدی از کرونا هم اوج گرفته.

خلاصه حرف آخرشون اینه: این کار نه‌تنها یه روش فوری و دم‌دست می‌ده تا بفهمیم مردم واقعاً کجا احتیاج به کمک دارن، بلکه باعث میشه مسئولین بهتر بتونن منابع رو تقسیم کنن، زودتر به بحران‌ها واکنش نشون بدن و حتی شاید تو آینده بشه همه‌چیز رو هوشمندتر مدیریت کرد.

به طور خلاصه، دَمِ محققای کووینار گرم! اینکه تونستن از توییت‌های مردم این همه نکته مهم و راه‌کار عملی دربیارن، یعنی شبکه‌های اجتماعی فقط واسه چرت‌وپرت گفتن نیستن؛ میشه ازشون تو بحران‌های جهانی هم کمک گرفت.

منبع: +