چطور با هوش مصنوعی و داده‌های ساختگی، تشخیص فعالیت‌ آدم‌ها رو قوی‌تر کنیم؟

خب، بذار این موضوع باحال رو خیلی خودمونی برات توضیح بدم. تو دنیای تکنولوژی، یکی از چالش‌های بزرگ اینه که بفهمیم آدم‌ها دارن چه کاری انجام میدن، فقط با داشتن اطلاعاتی که مثلاً از سنسورهای حرکتی بدن (حالا هرچی بخوای اسم‌شو بذاری، بهش می‌گن IMU – یعنی Inertial Measurement Unit، ابزارهایی که حرکت و شتاب بدن رو اندازه می‌گیرن) به دست میاد. اینو بهش میگن Human Activity Recognition یا به اختصار HAR، یعنی سیستم‌ بتونه حدس بزنه الان داری راه میری، می‌دوی، یا داری مثلاً یوگا کار می‌کنی.

حالا مشکل کجاست؟ مشکل اینه که واسه آموزش دادن این سیستم‌ها، داده‌ی برچسب‌خورده‌ی کافی نداریم. یعنی اون سنسورهایی که به بدن آدم وصل میشه تا حرکت‌هاشو ضبط کنه خیلی جاها نصب نیست یا اطلاعات‌شون محدوده. اینجاست که محقق‌ها گفتن بیاید زرنگ باشیم و از ویدیوهایی که کلی حرکت و برچسب دارن (مثل ویدیوهای آموزشی یا حتی ورزشکارها) کمک بگیریم و با هوش مصنوعی، داده‌ی سنسور از روش بسازیم! یعنی یه جورایی مثلاً از روی ویدیو، اطلاعات سنسور بدن آدم رو شبیه‌سازی کنن.

ولی این موضوع هم یه مسأله داره؛ چون داده‌ی ساختگی که تا الان تولید شده معمولاً حرکت‌های ظریف و پیچیده رو خوب نمی‌گیره. یعنی برادری واقعی که داری تو باشگاه حرکات سنگین یا خاص انجام می‌دی، این داده‌های ساختگی نمی‌تونن اون دقت و جزئیاتو داشته باشن.

حالا راه‌حل؟ یعنی اون قسمتش که واقعاً باحاله! تیمی اومده یه چارچوب جدید به اسم Multi3Net+ ساخته. این یه فریمورک پیشرفته‌ست که می‌خواد با استفاده از یه جور یادگیری چندوظیفه‌ای و بین-رشته‌ای (یعنی cross-modal, multitask representation – یعنی ترکیب اطلاعات از حوزه‌های مختلف مثل متن، فرم بدن یا pose که همون حالت ایستادن یا حرکت آدمه و داده‌های سنسور) دقت این سیستم رو ببرد بالا. یعنی نه فقط از داده‌ی سنسور و ویدیو، بلکه حتی از متن توضیحات حرکات هم استفاده می‌کنن تا مدل بفهمه داستان چیه.

این مدل جدید، یعنی Multi3Net+، نسخه‌ی بهبود‌یافته‌ی مدل قبلی به اسم Multi3Net هست. یه فرق مهمش اینه که تو مرحله‌ی آموزش یا pre-training کلی ترفند خفن زده و از یه مدل دسته‌بندی‌کننده‌ی مخصوص به اسم mixture of experts – یا MoE (که یعنی چند تا متخصص رو کنار هم میذارن تا هرکدوم تو یه بخش خاص تخصص داشته باشن!) استفاده کرده تا نتیجه‌ش بهتر شه و بتونه خوب تفاوت بین حرکات رو بفهمه.

نکته‌ی مهمی که Multi3Net+ داره اینه که با استفاده از یادگیری contrastive بین این داده‌های مختلف، سعی می‌کنه اون فاصله‌ی دنیای ویدیو (که داده‌ی زیادی داره) و سنسور (که داده‌ش کمه) رو پر کنه. Contrastive learning یعنی مدلی که سعی می‌کنه یاد بگیره چیزهای شبیه رو کنار هم و چیزهای متفاوت رو دور از هم قرار بده.

حالا نتیجه چیه؟ آزمایش‌هایی که انجام دادن نشون میده Multi3Net+ واقعاً تونسته داده‌ی ساختگی IMU بسیار باکیفیتی تولید کنه که برای سیستم‌های شناسایی فعالیت بدن خیلی خوب جواب داده. حتی تونسته توی دقت و عملکرد تو بعضی وظایف HAR، بهترین نتایجی که تاحالا ثبت شده رو بزنه.

در مجموع، نتیجه اینه که ترکیب یادگیری بین‌حوزه‌ای (cross-modal)، چندوظیفه‌ای (multi-task) و استفاده از مدل‌های حرفه‌ای مثل mixture of experts می‌تونه چالش کمبود داده رو حسابی کمرنگ کنه و آینده‌ی سیستم‌های تشخیص فعالیت آدم‌ها رو خیلی هیجان‌انگیزتر کنه!

منبع: +