چیمر: راه‌حلی باحال و جدید برای شناسایی اشیا با دوربین‌های شبیه چشم انسان!

تا حالا چیزی درباره دوربین‌هایی که مثل چشم آدم‌ها کار می‌کنن شنیدی؟ این دوربین‌ها رو بهشون می‌گن «Event-based cameras»، یعنی دوربین‌هایی که به جای اینکه همه تصویر رو ضبط کنن، فقط وقتی یه چیزی تو تصویر تغییر می‌کنه، اون بخشی که تغییر کرده رو ثبت می‌کنن. یه جورایی مثل سلول‌های چشم ما که فقط به اتفاقات عکس‌العمل نشون میدن! اینجوری هم خیلی سریع‌ترن و هم مصرف برقشون پایینه، که خب برای دستگاه‌های هوشمند حسابی عالیه.

حالا تا اینجای کار خیلی خوبه، ولی سوال اینه: چطوری میشه با هوش مصنوعی و روش‌های یادگیری عمیق (Deep Learning، یعنی همون الگوریتم‌هایی که به کامپیوتر یاد میدن از داده‌ها یاد بگیره) داده‌های این دوربین‌ها رو به خوبی تحلیل کرد؟ اینجاست که چیمر یا همون “Chimera” وارد میشه.

چیمر در واقع یه فریم‌ورک (Framework یعنی یه بستر یا چارچوب که میشه روش سیستم ساخت) خیلی خاصه که برای شناسایی اشیا با همین دوربین‌های event-based ساخته شده. از این جهت خاصه که از چیزی به اسم NAS یا همون Neural Architecture Search استفاده می‌کنه. توضیح ساده NAS اینه: به جای اینکه یکی بشینه و دستی مدل هوش مصنوعی رو طراحی کنه، خودش به طور خودکار می‌گرده و بهترین ساختار رو برای مدل پیدا می‌کنه! توی این فریم‌ورک، چیمر اومده و روش‌هایی که قبلا تو دوربین‌های معمولی (مثل همین RGB که هر روز باهاش سروکار داریم) موثر بودن رو گرفته و باهوشانه با دنیا و داده‌های event-based تطبیق داده.

فضای طراحی چیمر از بخش‌های مختلفی ساخته شده که بهشون macroblock می‌گن (یعنی اجزای بزرگ ساختاری توی معماری مدل). این ماکروبلوک‌ها از بلوک‌های توجه (Attention blocks — بخش‌هایی که هوش مصنوعی رو وادار می‌کنن روی قسمت‌های مهم‌تر داده بیشتر تمرکز کنه)، کانولوشن‌ها (همون عملیات‌های پیچیده سازی که برای پیدا کردن الگوها توی تصویر خیلی استفاده میشه)، مدل‌های حالت‌فضا (State Space Models — یه مدل ریاضی پیشرفته برای فهم ارتباط داده‌ها توی زمان)، و معماری‌هایی که شبیه MLP-mixer هستن (که یه روش جدیده برای ترکیب داده‌ها به شکل‌های مختلف)، ساخته شدن. این ترکیب باعث میشه مدل هم بتونه اطلاعات محلی (جزئیات ریز) رو خوب بفهمه هم اطلاعات کلی و وسیع‌تر رو.

حالا نتیجه چی شده؟ این سیستم رو روی یک دیتاست معروف به اسم Prophesee’s GEN1 تست کردن (دیتاست یعنی مجموعه بزرگی از داده که برای آموزش و تست هوش مصنوعی به کار میره) و چیمر تونسته بهترین نتیجه میانگین دقت رو ثبت کنه — دقتش به صورت mAP یا mean Average Precision حساب میشه، یعنی یه شاخص کلی از اینکه چقدر خوب اشیا رو درست شناسایی کرده. تازه جالب اینجاست که تعداد پارامترهای مدل رو حدود ۱.۶ برابر کمتر کرده (پارامترها یعنی همون مقادیر قابل یادگیری مدل، که هرچی کمتر باشه مدل سبک‌تر و سریع‌تره) و سرعتش هم ۲.۱ برابر بیشتر شده! یعنی هم دقیق‌تر کار میکنه، هم سبک‌تر و سریع‌تره، که خیلی خاصه.

اگه دوست داری کدها یا جزییات بیشتری رو ببینی، پروژه چیمر رو گذاشتن روی گیت‌هاب به آدرس: https://github.com/silvada95/Chimera. خلاصه؛ چیمر واقعاً یه گام روبه‌جلو برای وصل کردن هوش مصنوعی به دوربین‌های آینده‌ست! اگه دنبال یه مدل خفن و بهینه برای شناسایی اشیا توی داده‌های event-based هستی، حتماً اینو چک کن.

منبع: +