خب، بذار این موضوع باحال رو خیلی خودمونی برات توضیح بدم. تو دنیای تکنولوژی، یکی از چالشهای بزرگ اینه که بفهمیم آدمها دارن چه کاری انجام میدن، فقط با داشتن اطلاعاتی که مثلاً از سنسورهای حرکتی بدن (حالا هرچی بخوای اسمشو بذاری، بهش میگن IMU – یعنی Inertial Measurement Unit، ابزارهایی که حرکت و شتاب بدن رو اندازه میگیرن) به دست میاد. اینو بهش میگن Human Activity Recognition یا به اختصار HAR، یعنی سیستم بتونه حدس بزنه الان داری راه میری، میدوی، یا داری مثلاً یوگا کار میکنی.
حالا مشکل کجاست؟ مشکل اینه که واسه آموزش دادن این سیستمها، دادهی برچسبخوردهی کافی نداریم. یعنی اون سنسورهایی که به بدن آدم وصل میشه تا حرکتهاشو ضبط کنه خیلی جاها نصب نیست یا اطلاعاتشون محدوده. اینجاست که محققها گفتن بیاید زرنگ باشیم و از ویدیوهایی که کلی حرکت و برچسب دارن (مثل ویدیوهای آموزشی یا حتی ورزشکارها) کمک بگیریم و با هوش مصنوعی، دادهی سنسور از روش بسازیم! یعنی یه جورایی مثلاً از روی ویدیو، اطلاعات سنسور بدن آدم رو شبیهسازی کنن.
ولی این موضوع هم یه مسأله داره؛ چون دادهی ساختگی که تا الان تولید شده معمولاً حرکتهای ظریف و پیچیده رو خوب نمیگیره. یعنی برادری واقعی که داری تو باشگاه حرکات سنگین یا خاص انجام میدی، این دادههای ساختگی نمیتونن اون دقت و جزئیاتو داشته باشن.
حالا راهحل؟ یعنی اون قسمتش که واقعاً باحاله! تیمی اومده یه چارچوب جدید به اسم Multi3Net+ ساخته. این یه فریمورک پیشرفتهست که میخواد با استفاده از یه جور یادگیری چندوظیفهای و بین-رشتهای (یعنی cross-modal, multitask representation – یعنی ترکیب اطلاعات از حوزههای مختلف مثل متن، فرم بدن یا pose که همون حالت ایستادن یا حرکت آدمه و دادههای سنسور) دقت این سیستم رو ببرد بالا. یعنی نه فقط از دادهی سنسور و ویدیو، بلکه حتی از متن توضیحات حرکات هم استفاده میکنن تا مدل بفهمه داستان چیه.
این مدل جدید، یعنی Multi3Net+، نسخهی بهبودیافتهی مدل قبلی به اسم Multi3Net هست. یه فرق مهمش اینه که تو مرحلهی آموزش یا pre-training کلی ترفند خفن زده و از یه مدل دستهبندیکنندهی مخصوص به اسم mixture of experts – یا MoE (که یعنی چند تا متخصص رو کنار هم میذارن تا هرکدوم تو یه بخش خاص تخصص داشته باشن!) استفاده کرده تا نتیجهش بهتر شه و بتونه خوب تفاوت بین حرکات رو بفهمه.
نکتهی مهمی که Multi3Net+ داره اینه که با استفاده از یادگیری contrastive بین این دادههای مختلف، سعی میکنه اون فاصلهی دنیای ویدیو (که دادهی زیادی داره) و سنسور (که دادهش کمه) رو پر کنه. Contrastive learning یعنی مدلی که سعی میکنه یاد بگیره چیزهای شبیه رو کنار هم و چیزهای متفاوت رو دور از هم قرار بده.
حالا نتیجه چیه؟ آزمایشهایی که انجام دادن نشون میده Multi3Net+ واقعاً تونسته دادهی ساختگی IMU بسیار باکیفیتی تولید کنه که برای سیستمهای شناسایی فعالیت بدن خیلی خوب جواب داده. حتی تونسته توی دقت و عملکرد تو بعضی وظایف HAR، بهترین نتایجی که تاحالا ثبت شده رو بزنه.
در مجموع، نتیجه اینه که ترکیب یادگیری بینحوزهای (cross-modal)، چندوظیفهای (multi-task) و استفاده از مدلهای حرفهای مثل mixture of experts میتونه چالش کمبود داده رو حسابی کمرنگ کنه و آیندهی سیستمهای تشخیص فعالیت آدمها رو خیلی هیجانانگیزتر کنه!
منبع: +