مدل جدید و سبک برای تشخیص رفتار آدم‌ها تو ویدیو: هوش مصنوعی که هم سریع کار می‌کنه، هم درست!

اگه تا حالا فیلم‌هایی دیدین که سیستم‌ها می‌تونن بفهمن آدم‌ها دارن چی کار می‌کنن، مثلاً یکی ضربه می‌زنه، دوتا دست می‌دن یا سر و کله‌ی هم می‌پرن، احتمالاً با بحث تشخیص رفتار انسانی تو ویدیوها آشنا شدین. این حوزه کلی کاربرد داره؛ از دوربین‌های امنیتی گرفته تا بازی‌های ویدیویی و حتی ربات‌های اجتماعی! ولی باور کنین، این مسئله اصلاً ساده نیست، چون تعامل بین دو نفر یا چند نفر خیلی پیچیده‌ست و مدلسازی این تعاملات حسابی چالش داره.

تا الان خیلی از مدل‌های هوش مصنوعی، اومدن سراغ داده‌های مختلف: یکی با داده‌ی اسکلتی کار می‌کنه (یعنی فقط نقاط حرکتی بدن آدم‌ها رو دنبال می‌کنه – مثلاً مثل نقطه گذاری روی سر و دست و پاها تو فیلمای ورزشی)، یکی دیگه مدل‌هایی ساخته که مستقیم با خود ویدیو و عکس‌های RGB (یعنی همون تصاویر رنگی معمولی) کار می‌کنه. هر دو روش بعضاً دقت خیلی خوبی رو نشون دادن، ولی یه ایراد بزرگ دارن: یا خیلی سنگین و کندن و منابع زیادی می‌خوان، یا نمی‌تونن درست تعامل چند نفر رو تشخیص بدن.

خب خبر خوب اینه که اخیراً یه مدل جدید به اسم CSSIModel (مخفف Convolutional Spatio-Temporal Sequential Inference Model) پیشنهاد شده که قول داده هم دقت بالایی بده و هم سبک باشه! یعنی هم سریع اجرا می‌شه و هم تو دستگاه‌هایی که قدرت‌شون محدوده، خوب جواب می‌ده.

حالا چیز جالب اینجاست که این مدل، از هر دو دنیا استفاده می‌کنه: هم داده‌های اسکلتی رو برمی‌داره (اینجا به کمک یک شبکه به اسم DINet این کار رو انجام می‌ده – DINet یه جور شبکه هوش مصنوعیه که مخصوص استخراج ویژگی از داده‌های اسکلتی طراحی شده)، هم تصاویر RGB رو می‌گیره و با شبکه معروف ResNet-18 (که یه مدل عصبی سبکه برای شناسایی تصویر) ازش ویژگی بیرون می‌کشه. بعد این اطلاعات ترکیب می‌شن (به این کار می‌گن multi-modal fusion؛ یعنی ترکیب چند نوع داده)، و در قدم بعدی، یه ماژول خاص وارد کار می‌شه به اسم multi-scale 2D convolutional peak-valley inference module (اسمش عجیبه ولی خلاصه قضیه اینجوریه که مدل همزمان اطلاعات رو تو چند مقیاس و با شکل‌های مختلف پردازش می‌کنه تا بالا و پایین‌های رفتار یا قله و دره‌های داده رو خوب بفهمه).

نتیجه چی شده؟ این مدل رو روی دیتاست‌های معروفی که برای سنجش اینجور سیستم‌هاست، تست کردن. مثلاً روی دیتاست NTU RGB+D 60 (که حالت‌های مختلفی داره) مدل تونسته 87.4٪ دقت بگیره (تو حالت XSub)، 94.1٪ در حالت XView، 80.5٪ روی دیتاست NTU RGB+D 120 (حالت XSub)، و 84.9٪ هم روی همون دیتاست ولی حالت XSet. این اعداد تقریباً برابر بهترین مدل‌های فعلی یا حتی بعضیاشون بهتره!

جمع‌بندی چیه؟ مدل CSSIModel اومده دقت بالا رو با مصرف کم منابع ترکیب کرده—یا به قول متخصصا «تعادل بین دقت و کارایی محاسباتی» رو به خوبی حفظ کرده. خلاصه بخوام بگم، می‌تونن این مدل رو تو کاربرد‌های واقعی که سرعت مهمه (مثلاً موقع پردازش همزمان دوربین‌های امنیتی، یا سیستم‌های تعاملی لحظه‌ای) بدون نگرانی از کند بودن اجرا کنن. تازه، این مدل می‌تونه الهام‌بخش تحقیقات بعدی تو زمینه استفاده از داده‌های چندگانه (multi-modal) هم باشه.

اگه دوست دارین تو این زمینه کار کنین یا فقط دوست داشتین بدونین مدل‌های امروزی یادگیری رفتار آدم‌ها چقدر پیشرفت کردن، بدونین CSSIModel یکی از نمونه‌هایی هست که نشون می‌ده می‌شه هوش مصنوعی هم سریع باشه و هم باهوش!

منبع: +