خب بذارید یه ماجرای جالب رو براتون تعریف کنم! وقتی کرونا اومد و همه دنیا رو بهم ریخت، یکی از بزرگترین مشکلات این بود که هیچکس دقیق نمیدونست کجاها نیاز به کمک داره یا مثلاً ذخایر دارویی و وسایل مراقبتی کم اومده. رگولاتورهای سلامت (Regulatory bodies یعنی همون نهادهایی که کنترل و نظارت سلامت رو به عهده دارن) حسابی گیر افتاده بودن.
یه سری دانشمند باحال گفتن: خب چرا از توییتر کمک نگیریم که مردم خودشون دارن لحظهای میگن چی کم دارن، کجا مشکل هست یا کجا ملت خودشون دارن ماسک پخش میکنن؟ خلاصه اومدن و یه کار باحال راه انداختن. با استفاده از یه ابزار خیلی قوی به اسم SnScrape (یه ابزاریه که میتونه توییتها رو به طور کامل جمع کنه و تحلیل کنه)، حدود ۲۷.۵ میلیون توییت جمع کردن! از زمان نوامبر ۲۰۱۹ (همون اولای کرونا) تا مارس ۲۰۲۳.
ولی همهٔ این توییتا که به درد نمیخورد. بعدش اومدن یه بازه خیلی حساس انتخاب کردن؛ آوریل ۲۰۲۱! این ماه اوج بحران کرونا بود. از دل این توییتا، شروع کردن سر و شکل دادن به چیزی که اسمش رو گذاشتن CoViNAR، مخفف «Context-aware social media dataset for pandemic severity level prediction and analysis» یعنی یه دیتاست توییتری که خودش میدونه چه توییتی به درد تشخیص شدت بحران کرونا میخوره و کدوم نه.
اینجا یه تکنیک جذاب به کار بردن به اسم BERTopic؛ این یه روش مدرنه برای فهمیدن موضوعات و دستهبندی کردن توییتها به طور هوشمند (مثلاً میشه باهاش فهمید کی داره از کمبود ماسک میگه، کی داره از فراوونی دارو خبر میده و کی کلاً حرف بیربط زده). بعد بین این همه توییت، ۱۴ هزار تا رو که به درد میخوردن انتخاب و برچسبگذاری کردن: دستهبندیهاش اینا بودن: «نیازمند» (یعنی کسی که یه چیزی لازم داره)، «موجودی» (یعنی مثلا جایی اعلام کرده ماسک داریم!) و «بیربط».
حالا این دیتا رو دادن به یه عالمه هوش مصنوعی و مدلهای یادگیری ماشین (Machine Learning Classifier یعنی همون مدلهایی که بر اساس دیتا آموزش میبینن تا چیزای جدید رو تشخیص بدن) تا ببینن میتونن به درد ما بخورن یا نه. سه تا روش معروف توی حوزهٔ Word Embedding – که کارشون اینه کلمات رو با معنیشون تو فضایی به کامپیوتر نشون بدن – هم استفاده کردن تا مدلهاشون زمینه و مفهوم رو بفهمن.
نتیجه؟ یه مدل با اسم DistilBERT حسابی ترکوند! (DistilBERT یه نوع مدل هست که خیلی هوشمندانه میتونه مفهوم متنی رو بفهمه) این مدل تونست توی تستها دقت ۹۶.۴۲٪ داشته باشه؛ یعنی چیزی که واقعاً خیلی بالاست. دقت (Precision) و بازیابی (Recall) و امتیاز F1 هم همگی حدود ۹۶.۴۳٪ شدن. خلاصه همه چی عالی!
یه بخش دیگه پروژهشون این بود که بررسی کنن ببینن توییتهایی که مردم در مورد نیاز و موجودی کالاها مینویسن، چقدر با موجهای جدید کرونا همزمان هست. دادههای مربوط به آمریکا، بریتانیا و هند رو با هم مقایسه کردن (تقریباً از شروع پاندمی تا ۲۰۲۳) و به نتیجهی جالبی رسیدن: هر وقت که تعداد توییتهای «نیاز» یا «موجودی» زیاد شده، همون موقع موج جدیدی از کرونا هم اوج گرفته.
خلاصه حرف آخرشون اینه: این کار نهتنها یه روش فوری و دمدست میده تا بفهمیم مردم واقعاً کجا احتیاج به کمک دارن، بلکه باعث میشه مسئولین بهتر بتونن منابع رو تقسیم کنن، زودتر به بحرانها واکنش نشون بدن و حتی شاید تو آینده بشه همهچیز رو هوشمندتر مدیریت کرد.
به طور خلاصه، دَمِ محققای کووینار گرم! اینکه تونستن از توییتهای مردم این همه نکته مهم و راهکار عملی دربیارن، یعنی شبکههای اجتماعی فقط واسه چرتوپرت گفتن نیستن؛ میشه ازشون تو بحرانهای جهانی هم کمک گرفت.
منبع: +