ماجرای کنجکاوی تیم CuriosAI توی چالش تخمین مهارت EgoExo4D سال ۲۰۲۵!

Fall Back

خب رفقا، بیاید براتون یه داستان جالب رو تعریف کنم! یه تیم به اسم CuriosAI تصمیم گرفتن توی یه چالش حسابی جذاب شرکت کنن به اسم EgoExo4D Proficiency Estimation Challenge. این چالش سال ۲۰۲۵ قراره تو کنفرانس معروف CVPR برگزار بشه (CVPR خودش یکی از خفن‌ترین کنفرانس‌های جهانی تو حوزه بینایی کامپیوتر هست!). حالا هدف اصلی این چالش چیه؟ اینکه بتونن مهارت افراد رو از روی ویدئوهایی که با دوربین‌های مختلف ضبط شدن، با دقت تخمین بزنن.

تیم CuriosAI پا پیش گذاشت و دوتا راه‌حل مختلف ارائه دادن که خیلی هم خلاقانه بودن! بذارین یکی‌یکی به زبان ساده توضیحشون بدم:

اولین روششون بهش میگن multi-task learning framework یعنی یه چارچوب یادگیری چند وظیفه‌ای که همزمان چندتا تسک رو انجام میده. اینجا اومدن از یه مدل نسبتاً قدرتمند به اسم Sapiens-2B استفاده کردن. Sapiens-2B رو می‌تونین مثل یه مغز مصنوعی خیلی قوی در نظر بگیرین که هم می‌تونه بفهمه تو چه سناریویی هستیم (سناریو یعنی اون اتفاق کلی که توی ویدیو داره میفته) و هم اینکه مهارت فرد شرکت‌کننده رو حدس بزنه. با این روش تونستن به دقت ۴۳.۶ درصدی برسن. یعنی تقریباً از هر ۱۰۰ بار، ۴۴ بار مدل درست حدس می‌زنه.

اما خب، یه تکنیک دوم هم داشتن که باعث شد بیشتر بدرخشن! این یکی اسمش اینه: two-stage pipeline. یعنی خودش دو تا مرحله داره. توی مرحله‌ی اول اول از همه بدون اینکه هیچ آموزش خاصی دیده باشه، مدل تلاش می‌کنه بفهمه که این ویدیو کدوم سناریو رو نشون میده. به این میگن zero-shot recognition یعنی تشخیص بدون آموزش قبلی (در واقع مدل قبلاً هیچ نمونه‌ای از این سناریو ندیده و باید باهوشی خودش حدس بزنه!). بعدش توی مرحله دوم، میان و با استفاده از چند تا مدل دیگه به اسم VideoMAE (اینا مدل‌هایی هستن که ویدیو رو تجزیه و تحلیل می‌کنن و مفهومش رو می‌فهمن)، برای هر زاویه دوربین یه مدل جداگانه می‌سازن تا بتونه متناسب با همون دید، مهارت فرد رو حدس بزنه.

نتیجه چی شد؟ به دقت ۴۷.۸ درصدی رسیدن! یعنی تقریبا ۴.۲ درصد بهتر از روش اول. این نشون می‌ده که وقتی مدل از همون اول سناریو رو تشخیص می‌ده و بعدش مدل براساس اون سناریو، تخصصی‌تر کار می‌کنه، کل خروجی خیلی بهتر می‌شه. به این کار می‌گن scenario-conditioned modeling یعنی مدل‌سازی شرطی براساس سناریو، که خب حسابی تو بهبود دقت تاثیر داشته.

خلاصه‌اش اینه که تیم CuriosAI با استفاده از چند تا روش حسابی مدرن و هوشمندانه، تونستن مهارت آدم‌ها رو از روی ویدیوهای چند زاویه‌ای با دقت قابل توجهی تخمین بزنن. این چیز‌ها خیلی به درد جاهایی می‌خوره که بخوای مثلا تو ورزش یا آموزش عملی، سطح مهارت کسی رو اتوماتیک پایش کنی! چه آینده‌ای داشته باشه هوش مصنوعی!

منبع: +