حتماً شنیدی که موقع بلایای طبیعی مثل زلزله یا سیل، چقدر لازمه که اطلاعات سریع و دقیق جمعآوری بشه. این روزها شبکههای اجتماعی، به طرز عجیبی شدن یکی از بهترین منابع برای پیداکردن اطلاعات تازه که تو همون لحظه توسط آدمها فرستاده میشن. ولی یه مشکل این وسط داریم: معمولاً دادههایی که از این طریق بهدست میاد، یا خیلی کمه یا بین دستهبندیهاش تعادل نیست. یعنی مثلاً کلی عکس از خیابون سیلزده داریم، ولی در مورد تخریب ساختمونها عکس خیلی کمی پیدا میشه. خب این مشکله چون وقتی مدلهای هوش مصنوعی رو با این دادهها آموزش میدیم، معمولا رو اون دستههایی که داده زیاد دارن، خیلی خوب کار میکنه، ولی اگه داده کم باشه، مدل واقعا ضعیف میشه.
حالا این مقاله میاد راهکارهایی جالب رو تست میکنه تا ببینه آیا میشه با کمک تکنیکهایی به اسم «افزایش داده» یا همون Data Augmentation (یعنی قاطی کردن، تغییر دادن یا اضافه کردن داده جعلی برای اینکه مدل بهتر یاد بگیره)، این چالشها رو حل کرد یا نه. به طور خاص، اومدن سراغ دیتاست CrisisMMD. دیتاست یعنی مجموعه بزرگی از دیتا (عکس و متن و اینا) که توش مربوط به بلایای واقعیه.
برای داده تصویری، اومدن سراغ روشهای جدید به اسم diffusion-based methods. اینا یعنی مدلهایی که خودشون میتونن بر اساس یه ورودی، تصویر جدید و واقعیتری بسازن. تو این تحقیق دو مدل استفاده کردن: Real Guidance و DiffuseMix (این اسما بیشتر مربوط به الگوریتمهای تولید تصویر با هوش مصنوعی هستن که تلاش کردن، عکسهای واقعیتر با تنوع بیشتر بسازن).
اما خب فقط تصویر که نیست، متن هم داریم! برای اینکه متنها رو هم متنوعتر کنن و داده رو بیشتر کنن، سه تا ترفند زدن:
۱. Back-translation (یعنی یه جمله رو به یه زبان دیگه ترجمه میکنی، دوباره برمیگردونی به زبون اصلی. معمولا جمله تغییراتی میکنه و به عنوان یه داده جدید ثبت میشه)
۲. Paraphrasing with transformers (اینجا transformer یعنی همون مدلهای هوشمند زبان مثل GPT یا BERT که میتونن جمله رو بازنویسی کنن ولی معنیش رو حفظ کنن)
۳. Image caption-based augmentation (یعنی برای هر عکسی یه جمله یا توضیح جدید مینویسن و اون رو به دادههای متنی اضافه میکنن).
نکته جالب اینه که این روشها رو تو سناریوهای مختلف هم امتحان کردن: فقط متنی، فقط تصویری، یا ترکیبی (که بهش میگن multimodal یا چندوجهی. یعنی همزمان از تصویر و متن استفاده میکنه). حتی یه مدل پیچیدهتر هم تست کردن به اسم multi-view learning. یعنی مدل به چند جور نمای مختلف از یه داده نگاه میکنه تا تصمیم بهتری بگیره.
اما نتیجه چی شد؟ تمام این افزایش دادهها باعث شدن مدل مخصوصاً رو اون دستههایی که کمتر توشون داده بود، بهتر عمل کنه. در واقع طبقهبندی درستتر شد و مدل کمتر دچار اشتباه شد. حتی مدل چندنمایی (multi-view) هم پتانسیل نشون داد، ولی به کمی بهبود نیاز داره.
در نهایت، این مقاله نشون داد که استفاده درست و حسابی از روشهای افزایش داده، میتونه حسابی به قدرتمندتر شدن سیستمهای ارزیابی بلایای طبیعی کمک کنه. یعنی میشه با دادههای محدود و ناسالم اولیه، یه مدل خیلی قویتر ساخت که تو شرایط بحرانی واقعاً به درد بخوره.
منبع: +