خب رفقا، بیاید براتون یه داستان جالب رو تعریف کنم! یه تیم به اسم CuriosAI تصمیم گرفتن توی یه چالش حسابی جذاب شرکت کنن به اسم EgoExo4D Proficiency Estimation Challenge. این چالش سال ۲۰۲۵ قراره تو کنفرانس معروف CVPR برگزار بشه (CVPR خودش یکی از خفنترین کنفرانسهای جهانی تو حوزه بینایی کامپیوتر هست!). حالا هدف اصلی این چالش چیه؟ اینکه بتونن مهارت افراد رو از روی ویدئوهایی که با دوربینهای مختلف ضبط شدن، با دقت تخمین بزنن.
تیم CuriosAI پا پیش گذاشت و دوتا راهحل مختلف ارائه دادن که خیلی هم خلاقانه بودن! بذارین یکییکی به زبان ساده توضیحشون بدم:
اولین روششون بهش میگن multi-task learning framework یعنی یه چارچوب یادگیری چند وظیفهای که همزمان چندتا تسک رو انجام میده. اینجا اومدن از یه مدل نسبتاً قدرتمند به اسم Sapiens-2B استفاده کردن. Sapiens-2B رو میتونین مثل یه مغز مصنوعی خیلی قوی در نظر بگیرین که هم میتونه بفهمه تو چه سناریویی هستیم (سناریو یعنی اون اتفاق کلی که توی ویدیو داره میفته) و هم اینکه مهارت فرد شرکتکننده رو حدس بزنه. با این روش تونستن به دقت ۴۳.۶ درصدی برسن. یعنی تقریباً از هر ۱۰۰ بار، ۴۴ بار مدل درست حدس میزنه.
اما خب، یه تکنیک دوم هم داشتن که باعث شد بیشتر بدرخشن! این یکی اسمش اینه: two-stage pipeline. یعنی خودش دو تا مرحله داره. توی مرحلهی اول اول از همه بدون اینکه هیچ آموزش خاصی دیده باشه، مدل تلاش میکنه بفهمه که این ویدیو کدوم سناریو رو نشون میده. به این میگن zero-shot recognition یعنی تشخیص بدون آموزش قبلی (در واقع مدل قبلاً هیچ نمونهای از این سناریو ندیده و باید باهوشی خودش حدس بزنه!). بعدش توی مرحله دوم، میان و با استفاده از چند تا مدل دیگه به اسم VideoMAE (اینا مدلهایی هستن که ویدیو رو تجزیه و تحلیل میکنن و مفهومش رو میفهمن)، برای هر زاویه دوربین یه مدل جداگانه میسازن تا بتونه متناسب با همون دید، مهارت فرد رو حدس بزنه.
نتیجه چی شد؟ به دقت ۴۷.۸ درصدی رسیدن! یعنی تقریبا ۴.۲ درصد بهتر از روش اول. این نشون میده که وقتی مدل از همون اول سناریو رو تشخیص میده و بعدش مدل براساس اون سناریو، تخصصیتر کار میکنه، کل خروجی خیلی بهتر میشه. به این کار میگن scenario-conditioned modeling یعنی مدلسازی شرطی براساس سناریو، که خب حسابی تو بهبود دقت تاثیر داشته.
خلاصهاش اینه که تیم CuriosAI با استفاده از چند تا روش حسابی مدرن و هوشمندانه، تونستن مهارت آدمها رو از روی ویدیوهای چند زاویهای با دقت قابل توجهی تخمین بزنن. این چیزها خیلی به درد جاهایی میخوره که بخوای مثلا تو ورزش یا آموزش عملی، سطح مهارت کسی رو اتوماتیک پایش کنی! چه آیندهای داشته باشه هوش مصنوعی!
منبع: +