بذارید براتون خیلی راحت و خودمونی توضیح بدم که جریان RWAFormer چیه. اگه تو زمینه ماشینای خودران و تکنولوژی لیدار دنبال کنی، احتمالاً میدونی که یکی از چالشهای بزرگ، همین بخشبندی معنایی ابرنقاطیه که از جادهها جمع میشه. بخشبندی معنایی یعنی اینکه هر نقطه تو دیتای سهبعدی لیدار معلوم بشه که مثلاً آسفالته، علفه، جدوله یا ماشین. خب، این کار تو دنیای واقعی و روی دیتای بزرگ و غیر یکنواخت اصلاً شوخی نیست!
اینجاست که RWAFormer میاد وسط و با یه شبکه سبک و جمعوجور داستانو جور دیگهای جلو میبره. اول اینکه یه مدول خیلی باحال داره به اسم STFE که مخفف Sparse Tensor Feature Encoding ـه. همین ماژول باعث میشه شبکه بتونه ویژگیهای ریز و بومیِ ابرنقاطو بهتر استخراج کنه. یعنی اطلاعات جزئی هر نقطه رو قشنگ درمیاره تا چیزیو از دست نده.
ولی این همهی ماجرا نیست! یه بخش مهم و نوآورانه دیگه هم داره به اسم RWA یا Radial Window Attention. بزار ساده بگم: این ماژول کارش اینه که با توجه به این که هر نقطه چه فاصلهای با مرکز داره، پنجره یا همون منطقه همسایگیشو تغییر میده. مثلا اگه یه نقطه خیلی دوره و دیتاش پراکندهست، پنجره روگسترش میده و دیتاهای دورترو هم جمع میکنه. اینجوری نقاط دور که معمولاً پر از خطا و کمدقتی هستن، بهتر تو شبکه تحلیل میشن و اثرشون تو بخشبندی دقیقتر میشه. به خاطر همین، تاثیر زیادی روی دقت قسمتبندی نقاط دور از دوربین لیدار داره.
حالا بیا بریم سراغ نتیجهها که همیشه هیجانانگیزن! این مدل تونسته توی دو تا دیتاست معروف حوزهی لیدار جاده، به اسم SemanticKITTI و NuScenes، امتیاز mIoU به ترتیب ۷۵.۳ و ۸۲.۰ درصد بگیره. میدونی mIoU چیه؟ یعنی میانگین اشتراک بر اتحاد؛ یه عدد که نشون میده چقدر پیشبینی مدل با واقعیت جور درمیاد (هرچی بیشتر بهتر). دقت کلی یا همون Accuracy هم تو همین دیتاستها به ۹۴.۵ و ۹۷.۴ درصد رسیده که دیگه جای هیچ حرفی نمیذاره. خلاصه نتایج نشون میدن که RWAFormer نسبت به خیلی از روشهای قبلی، هم موثرتره هم برتر.
در کل، RWAFormer با ترکیب ایدههای خلاقانه در استخراج ویژگی و توجه تطبیقی، تونسته بخشبندی ابرنقاط لیدار جاده رو هم سریعتر، هم دقیقتر و هم سبکتر کنه. این یعنی برای کاربردهای Real-time (یعنی همون بیوقفه و زنده، مثل ماشینای خودران)، گزینه خیلی مناسبیه!
منبع: +