چه جوری با ترکیب روش‌های افزایش داده، ارزیابی بلایای طبیعی رو هوشمندتر کنیم!

Fall Back

حتماً شنیدی که موقع بلایای طبیعی مثل زلزله یا سیل، چقدر لازمه که اطلاعات سریع و دقیق جمع‌آوری بشه. این روزها شبکه‌های اجتماعی، به طرز عجیبی شدن یکی از بهترین منابع برای پیداکردن اطلاعات تازه که تو همون لحظه توسط آدم‌ها فرستاده می‌شن. ولی یه مشکل این وسط داریم: معمولاً داده‌هایی که از این طریق به‌دست میاد، یا خیلی کمه یا بین دسته‌بندی‌هاش تعادل نیست. یعنی مثلاً کلی عکس از خیابون سیل‌زده داریم، ولی در مورد تخریب ساختمون‌ها عکس خیلی کمی پیدا میشه. خب این مشکله چون وقتی مدل‌های هوش مصنوعی رو با این داده‌ها آموزش می‌دیم، معمولا رو اون دسته‌هایی که داده زیاد دارن، خیلی خوب کار می‌کنه، ولی اگه داده کم باشه، مدل واقعا ضعیف میشه.

حالا این مقاله میاد راهکارهایی جالب رو تست می‌کنه تا ببینه آیا میشه با کمک تکنیک‌هایی به اسم «افزایش داده» یا همون Data Augmentation (یعنی قاطی کردن، تغییر دادن یا اضافه کردن داده جعلی برای اینکه مدل بهتر یاد بگیره)، این چالش‌ها رو حل کرد یا نه. به طور خاص، اومدن سراغ دیتاست CrisisMMD. دیتاست یعنی مجموعه بزرگی از دیتا (عکس و متن و اینا) که توش مربوط به بلایای واقعیه.

برای داده تصویری، اومدن سراغ روش‌های جدید به اسم diffusion-based methods. اینا یعنی مدل‌هایی که خودشون می‌تونن بر اساس یه ورودی، تصویر جدید و واقعی‌تری بسازن. تو این تحقیق دو مدل استفاده کردن: Real Guidance و DiffuseMix (این اسما بیشتر مربوط به الگوریتم‌های تولید تصویر با هوش مصنوعی هستن که تلاش کردن، عکس‌های واقعی‌تر با تنوع بیشتر بسازن).

اما خب فقط تصویر که نیست، متن هم داریم! برای اینکه متن‌ها رو هم متنوع‌تر کنن و داده رو بیشتر کنن، سه تا ترفند زدن:
۱. Back-translation (یعنی یه جمله رو به یه زبان دیگه ترجمه می‌کنی، دوباره برمی‌گردونی به زبون اصلی. معمولا جمله تغییراتی می‌کنه و به عنوان یه داده جدید ثبت میشه)
۲. Paraphrasing with transformers (اینجا transformer یعنی همون مدل‌های هوشمند زبان مثل GPT یا BERT که می‌تونن جمله رو بازنویسی کنن ولی معنی‌ش رو حفظ کنن)
۳. Image caption-based augmentation (یعنی برای هر عکسی یه جمله یا توضیح جدید می‌نویسن و اون رو به داده‌های متنی اضافه می‌کنن).

نکته جالب اینه که این روش‌ها رو تو سناریوهای مختلف هم امتحان کردن: فقط متنی، فقط تصویری، یا ترکیبی (که بهش می‌گن multimodal یا چندوجهی. یعنی همزمان از تصویر و متن استفاده می‌کنه). حتی یه مدل پیچیده‌تر هم تست کردن به اسم multi-view learning. یعنی مدل به چند جور نمای مختلف از یه داده نگاه می‌کنه تا تصمیم بهتری بگیره.

اما نتیجه چی شد؟ تمام این افزایش داده‌ها باعث شدن مدل مخصوصاً رو اون دسته‌هایی که کمتر توشون داده بود، بهتر عمل کنه. در واقع طبقه‌بندی درست‌تر شد و مدل کمتر دچار اشتباه شد. حتی مدل چندنمایی (multi-view) هم پتانسیل نشون داد، ولی به کمی بهبود نیاز داره.

در نهایت، این مقاله نشون داد که استفاده درست و حسابی از روش‌های افزایش داده، می‌تونه حسابی به قدرتمندتر شدن سیستم‌های ارزیابی بلایای طبیعی کمک کنه. یعنی میشه با داده‌های محدود و ناسالم اولیه، یه مدل خیلی قوی‌تر ساخت که تو شرایط بحرانی واقعاً به درد بخوره.

منبع: +