اگه تا حالا فیلمهایی دیدین که سیستمها میتونن بفهمن آدمها دارن چی کار میکنن، مثلاً یکی ضربه میزنه، دوتا دست میدن یا سر و کلهی هم میپرن، احتمالاً با بحث تشخیص رفتار انسانی تو ویدیوها آشنا شدین. این حوزه کلی کاربرد داره؛ از دوربینهای امنیتی گرفته تا بازیهای ویدیویی و حتی رباتهای اجتماعی! ولی باور کنین، این مسئله اصلاً ساده نیست، چون تعامل بین دو نفر یا چند نفر خیلی پیچیدهست و مدلسازی این تعاملات حسابی چالش داره.
تا الان خیلی از مدلهای هوش مصنوعی، اومدن سراغ دادههای مختلف: یکی با دادهی اسکلتی کار میکنه (یعنی فقط نقاط حرکتی بدن آدمها رو دنبال میکنه – مثلاً مثل نقطه گذاری روی سر و دست و پاها تو فیلمای ورزشی)، یکی دیگه مدلهایی ساخته که مستقیم با خود ویدیو و عکسهای RGB (یعنی همون تصاویر رنگی معمولی) کار میکنه. هر دو روش بعضاً دقت خیلی خوبی رو نشون دادن، ولی یه ایراد بزرگ دارن: یا خیلی سنگین و کندن و منابع زیادی میخوان، یا نمیتونن درست تعامل چند نفر رو تشخیص بدن.
خب خبر خوب اینه که اخیراً یه مدل جدید به اسم CSSIModel (مخفف Convolutional Spatio-Temporal Sequential Inference Model) پیشنهاد شده که قول داده هم دقت بالایی بده و هم سبک باشه! یعنی هم سریع اجرا میشه و هم تو دستگاههایی که قدرتشون محدوده، خوب جواب میده.
حالا چیز جالب اینجاست که این مدل، از هر دو دنیا استفاده میکنه: هم دادههای اسکلتی رو برمیداره (اینجا به کمک یک شبکه به اسم DINet این کار رو انجام میده – DINet یه جور شبکه هوش مصنوعیه که مخصوص استخراج ویژگی از دادههای اسکلتی طراحی شده)، هم تصاویر RGB رو میگیره و با شبکه معروف ResNet-18 (که یه مدل عصبی سبکه برای شناسایی تصویر) ازش ویژگی بیرون میکشه. بعد این اطلاعات ترکیب میشن (به این کار میگن multi-modal fusion؛ یعنی ترکیب چند نوع داده)، و در قدم بعدی، یه ماژول خاص وارد کار میشه به اسم multi-scale 2D convolutional peak-valley inference module (اسمش عجیبه ولی خلاصه قضیه اینجوریه که مدل همزمان اطلاعات رو تو چند مقیاس و با شکلهای مختلف پردازش میکنه تا بالا و پایینهای رفتار یا قله و درههای داده رو خوب بفهمه).
نتیجه چی شده؟ این مدل رو روی دیتاستهای معروفی که برای سنجش اینجور سیستمهاست، تست کردن. مثلاً روی دیتاست NTU RGB+D 60 (که حالتهای مختلفی داره) مدل تونسته 87.4٪ دقت بگیره (تو حالت XSub)، 94.1٪ در حالت XView، 80.5٪ روی دیتاست NTU RGB+D 120 (حالت XSub)، و 84.9٪ هم روی همون دیتاست ولی حالت XSet. این اعداد تقریباً برابر بهترین مدلهای فعلی یا حتی بعضیاشون بهتره!
جمعبندی چیه؟ مدل CSSIModel اومده دقت بالا رو با مصرف کم منابع ترکیب کرده—یا به قول متخصصا «تعادل بین دقت و کارایی محاسباتی» رو به خوبی حفظ کرده. خلاصه بخوام بگم، میتونن این مدل رو تو کاربردهای واقعی که سرعت مهمه (مثلاً موقع پردازش همزمان دوربینهای امنیتی، یا سیستمهای تعاملی لحظهای) بدون نگرانی از کند بودن اجرا کنن. تازه، این مدل میتونه الهامبخش تحقیقات بعدی تو زمینه استفاده از دادههای چندگانه (multi-modal) هم باشه.
اگه دوست دارین تو این زمینه کار کنین یا فقط دوست داشتین بدونین مدلهای امروزی یادگیری رفتار آدمها چقدر پیشرفت کردن، بدونین CSSIModel یکی از نمونههایی هست که نشون میده میشه هوش مصنوعی هم سریع باشه و هم باهوش!
منبع: +