خب بیا یه گپی بزنیم راجع به این قضیه که چطور هوش مصنوعیها تو رانندگی خودکار (همون ماشینایی که خودشون میرن و راننده ندارن) دارن پیشرفت میکنن و چالشهایی دارن. یکی از مهمترین مشکلاتشون اینه که وقتی یه شرایط خاص و کمیاب پیش میاد – مثلاً یه بچه یهو بدوه تو خیابون یا چندتا ماشین کنار هم مانور بدن – این سیستمها خیلی وقتها نمیتونن درست پیشبینی کنن چه خطری ماشین رو تهدید میکنه.
حالا اینجا تیم محققها رو آوردن تا این مشکل رو حل کنن. ایدهشون این بوده که اگه بشه دادههای مصنوعی (یعنی دادههایی که خودمون تو کامپیوتر تولید کردیم و واقعی نیستن) از سناریوهای ریسکی ساخت، مدلهای هوش مصنوعی خیلی بهتر میتونن خطرات حرکتی ماشین رو تشخیص بدن. منظور از مدلهای هوش مصنوعیِ اصطلاحاً Vision-Language Models یا به اختصار VLMها، همون مدلا هستن که میتونن تصویر و متن رو با هم پردازش کنن؛ مثلاً موقع رانندگی هم اطراف رو ببینن، هم اطلاعات متنی مثل نقشه و تابلو رو بفهمن.
حالا چه کار کردن؟ اومدن یه سیستم ساختن که باهاش میتونن سناریوهای خیلی خطرناک و جورواجور رو تو حالت پرندهای (Bird’s-Eye View – یعنی انگار یه پرنده از بالا محیط رو میبینه و تصویر ش رو میده به مدل) شبیهسازی کنن. این شبیهسازی هم سه بخش داشت: خود خودروی ما (که به انگلیسی معمولاً میگن Ego Vehicle یعنی خود ماشینی که کنترل دستشه)، خودروهای دیگه، و کل محیط. به این روش کلی سناریوی پیچیده ساختن که تو هرکدوم ممکنه خطر نزدیک باشه یا تصادفی در راه باشه.
این دادهها رو اسم گذاشتن DriveMRP-10K. این «10K» هم یعنی ده هزار سناریوی مختلف ساختن! دادههاشونم یه جوری طراحی شده که خیلی راحت و اصطلاحاً Plug-and-play—یعنی هرجا بخوای راحت میتونی استفادهشون کنی—میشه به مدلای مختلف داد و اونام بدون دردسر باهاش کار میکنن.
بعد از ساختن دادهها، یه فریمورک ساختن به اسم DriveMRP-Agent. این فریمورک که اصطلاحاً VLM-agnostic هست – یعنی به هر مدل تصویری-متنی میخوره و براش تفاوت نمیکنه چه مدلیه – میتونه ریسک حرکت بعدی رو تخمین بزنه. یه تکنیک جدیدم بهش اضافه کردن تا اطلاعات کلی محیط (یعنی کل شرایط اطراف)، دید ماشین خودمون، و پیشبینی مسیر حرکت (Trajectory Projection: یعنی مدل بتونه مسیر احتمالی ماشین رو تو محیط تصور کنه) رو همزمان دریافت کنه. با این کار، مدل بهتر میتونه تشخیص بده که مثلاً پیچیدن به چپ تو این شرایط چقدر ریسکه، یا جلوی ماشینی که داره خلاف میاد باید چه کار کنه.
اگه فکر میکنی شاید این فقط روی دادههای مصنوعی خوب جواب بده و تو واقعیت کار نکنه، باید بگم تستش کردن و نتایجش خیلی جالب بوده! بعد از اینکه با این دادهها مدلها رو اصطلاحاً Fine-tune کردن (یعنی مدل قبلی رو با دادههای جدید یکم بیشتر آموزش دادن)، دقت تشخیص تصادف تو مدلهای مختلف از ۲۷.۱۳٪ – که خب خیلی کمه – پرید به ۸۸.۰۳٪! یعنی مسیر رو کاملاً عوض کردن.
حتی تستشون رو روی یه دیتاست واقعی که مخصوص خودشون جمع کرده بودن و توش حرکتهای خیلی ریسکی دیده میشد هم انجام دادن (این تست رو بهش میگن Zero-shot—یعنی مدل رو مستقیم بدون تمرین با دادههای واقعی، رو همون دادهها میسنجن که ببینن چقدر خوب کلیت کار رو فهمیده). اونجا هم دیدن دقت از ۲۹.۴۲٪ رسید به ۶۸.۵۰٪! این یعنی مدلشون تونسته واقعاً به درک عمیقتری از شرایط غیرمنتظره و خطرناک برسه و احتمالش خیلی بالاست که تو زندگی واقعی هم حسابی به درد بخوره.
در نتیجه، داستان DriveMRP همین بود که با دادهسازی هوشمند و طراحی یه چارچوب جدید، هوش مصنوعیهای رانندگی خودکار رو برای شناسایی ریسکهای حرکتی واقعاً قویتر کردن. این پروژه نشون میده فقط دادههای عادی روزمره کافی نیست و باید مخصوصاً سناریوهای عجیب و غریب و خطرناک رو هم تو آموزش مدلها آورد. اینطوری شاید یه قدم دیگه به ماشینهای خودران مطمئن و ایمنتر نزدیکتر بشیم.
منبع: +