DriveMRP چطور مدل‌های هوش مصنوعی رو برای پیش‌بینی خطر تو رانندگی تقویت می‌کنه؟

خب بیا یه گپی بزنیم راجع به این قضیه که چطور هوش مصنوعی‌ها تو رانندگی خودکار (همون ماشینایی که خودشون می‌رن و راننده ندارن) دارن پیشرفت می‌کنن و چالش‌هایی دارن. یکی از مهم‌ترین مشکلاتشون اینه که وقتی یه شرایط خاص و کمیاب پیش میاد – مثلاً یه بچه یهو بدوه تو خیابون یا چندتا ماشین کنار هم مانور بدن – این سیستم‌ها خیلی وقت‌ها نمی‌تونن درست پیش‌بینی کنن چه خطری ماشین رو تهدید می‌کنه.

حالا اینجا تیم محقق‌ها رو آوردن تا این مشکل رو حل کنن. ایده‌شون این بوده که اگه بشه داده‌های مصنوعی (یعنی داده‌هایی که خودمون تو کامپیوتر تولید کردیم و واقعی نیستن) از سناریوهای ریسکی ساخت، مدل‌های هوش مصنوعی خیلی بهتر می‌تونن خطرات حرکتی ماشین رو تشخیص بدن. منظور از مدل‌های هوش مصنوعیِ اصطلاحاً Vision-Language Models یا به اختصار VLMها، همون مدلا هستن که می‌تونن تصویر و متن رو با هم پردازش کنن؛ مثلاً موقع رانندگی هم اطراف رو ببینن، هم اطلاعات متنی مثل نقشه و تابلو رو بفهمن.

حالا چه کار کردن؟ اومدن یه سیستم ساختن که باهاش می‌تونن سناریوهای خیلی خطرناک و جورواجور رو تو حالت پرنده‌ای (Bird’s-Eye View – یعنی انگار یه پرنده از بالا محیط رو می‌بینه و تصویر ش رو می‌ده به مدل) شبیه‌سازی کنن. این شبیه‌سازی هم سه بخش داشت: خود خودروی ما (که به انگلیسی معمولاً می‌گن Ego Vehicle یعنی خود ماشینی که کنترل دستشه)، خودروهای دیگه، و کل محیط. به این روش کلی سناریوی پیچیده ساختن که تو هرکدوم ممکنه خطر نزدیک باشه یا تصادفی در راه باشه.

این داده‌ها رو اسم گذاشتن DriveMRP-10K. این «10K» هم یعنی ده هزار سناریوی مختلف ساختن! داده‌هاشونم یه جوری طراحی شده که خیلی راحت و اصطلاحاً Plug-and-play—یعنی هرجا بخوای راحت می‌تونی استفاده‌شون کنی—میشه به مدلای مختلف داد و اونام بدون دردسر باهاش کار می‌کنن.

بعد از ساختن داده‌ها، یه فریم‌ورک ساختن به اسم DriveMRP-Agent. این فریم‌ورک که اصطلاحاً VLM-agnostic هست – یعنی به هر مدل تصویری-متنی می‌خوره و براش تفاوت نمی‌کنه چه مدلیه – می‌تونه ریسک حرکت بعدی رو تخمین بزنه. یه تکنیک جدیدم بهش اضافه کردن تا اطلاعات کلی محیط (یعنی کل شرایط اطراف)، دید ماشین خودمون، و پیش‌بینی مسیر حرکت (Trajectory Projection: یعنی مدل بتونه مسیر احتمالی ماشین رو تو محیط تصور کنه) رو همزمان دریافت کنه. با این کار، مدل بهتر می‌تونه تشخیص بده که مثلاً پیچیدن به چپ تو این شرایط چقدر ریسکه، یا جلوی ماشینی که داره خلاف میاد باید چه کار کنه.

اگه فکر می‌کنی شاید این فقط روی داده‌های مصنوعی خوب جواب بده و تو واقعیت کار نکنه، باید بگم تستش کردن و نتایجش خیلی جالب بوده! بعد از اینکه با این داده‌ها مدل‌ها رو اصطلاحاً Fine-tune کردن (یعنی مدل قبلی رو با داده‌های جدید یکم بیشتر آموزش دادن)، دقت تشخیص تصادف تو مدل‌های مختلف از ۲۷.۱۳٪ – که خب خیلی کمه – پرید به ۸۸.۰۳٪! یعنی مسیر رو کاملاً عوض کردن.

حتی تستشون رو روی یه دیتاست واقعی که مخصوص خودشون جمع کرده بودن و توش حرکت‌های خیلی ریسکی دیده می‌شد هم انجام دادن (این تست رو بهش می‌گن Zero-shot—یعنی مدل رو مستقیم بدون تمرین با داده‌های واقعی، رو همون داده‌ها می‌سنجن که ببینن چقدر خوب کلیت کار رو فهمیده). اونجا هم دیدن دقت از ۲۹.۴۲٪ رسید به ۶۸.۵۰٪! این یعنی مدلشون تونسته واقعاً به درک عمیق‌تری از شرایط غیرمنتظره و خطرناک برسه و احتمالش خیلی بالاست که تو زندگی واقعی هم حسابی به درد بخوره.

در نتیجه، داستان DriveMRP همین بود که با داده‌سازی هوشمند و طراحی یه چارچوب جدید، هوش مصنوعی‌های رانندگی خودکار رو برای شناسایی ریسک‌های حرکتی واقعاً قوی‌تر کردن. این پروژه نشون می‌ده فقط داده‌های عادی روزمره کافی نیست و باید مخصوصاً سناریوهای عجیب و غریب و خطرناک رو هم تو آموزش مدل‌ها آورد. اینطوری شاید یه قدم دیگه به ماشین‌های خودران مطمئن و ایمن‌تر نزدیک‌تر بشیم.
منبع: +