تا حالا چیزی درباره دوربینهایی که مثل چشم آدمها کار میکنن شنیدی؟ این دوربینها رو بهشون میگن «Event-based cameras»، یعنی دوربینهایی که به جای اینکه همه تصویر رو ضبط کنن، فقط وقتی یه چیزی تو تصویر تغییر میکنه، اون بخشی که تغییر کرده رو ثبت میکنن. یه جورایی مثل سلولهای چشم ما که فقط به اتفاقات عکسالعمل نشون میدن! اینجوری هم خیلی سریعترن و هم مصرف برقشون پایینه، که خب برای دستگاههای هوشمند حسابی عالیه.
حالا تا اینجای کار خیلی خوبه، ولی سوال اینه: چطوری میشه با هوش مصنوعی و روشهای یادگیری عمیق (Deep Learning، یعنی همون الگوریتمهایی که به کامپیوتر یاد میدن از دادهها یاد بگیره) دادههای این دوربینها رو به خوبی تحلیل کرد؟ اینجاست که چیمر یا همون “Chimera” وارد میشه.
چیمر در واقع یه فریمورک (Framework یعنی یه بستر یا چارچوب که میشه روش سیستم ساخت) خیلی خاصه که برای شناسایی اشیا با همین دوربینهای event-based ساخته شده. از این جهت خاصه که از چیزی به اسم NAS یا همون Neural Architecture Search استفاده میکنه. توضیح ساده NAS اینه: به جای اینکه یکی بشینه و دستی مدل هوش مصنوعی رو طراحی کنه، خودش به طور خودکار میگرده و بهترین ساختار رو برای مدل پیدا میکنه! توی این فریمورک، چیمر اومده و روشهایی که قبلا تو دوربینهای معمولی (مثل همین RGB که هر روز باهاش سروکار داریم) موثر بودن رو گرفته و باهوشانه با دنیا و دادههای event-based تطبیق داده.
فضای طراحی چیمر از بخشهای مختلفی ساخته شده که بهشون macroblock میگن (یعنی اجزای بزرگ ساختاری توی معماری مدل). این ماکروبلوکها از بلوکهای توجه (Attention blocks — بخشهایی که هوش مصنوعی رو وادار میکنن روی قسمتهای مهمتر داده بیشتر تمرکز کنه)، کانولوشنها (همون عملیاتهای پیچیده سازی که برای پیدا کردن الگوها توی تصویر خیلی استفاده میشه)، مدلهای حالتفضا (State Space Models — یه مدل ریاضی پیشرفته برای فهم ارتباط دادهها توی زمان)، و معماریهایی که شبیه MLP-mixer هستن (که یه روش جدیده برای ترکیب دادهها به شکلهای مختلف)، ساخته شدن. این ترکیب باعث میشه مدل هم بتونه اطلاعات محلی (جزئیات ریز) رو خوب بفهمه هم اطلاعات کلی و وسیعتر رو.
حالا نتیجه چی شده؟ این سیستم رو روی یک دیتاست معروف به اسم Prophesee’s GEN1 تست کردن (دیتاست یعنی مجموعه بزرگی از داده که برای آموزش و تست هوش مصنوعی به کار میره) و چیمر تونسته بهترین نتیجه میانگین دقت رو ثبت کنه — دقتش به صورت mAP یا mean Average Precision حساب میشه، یعنی یه شاخص کلی از اینکه چقدر خوب اشیا رو درست شناسایی کرده. تازه جالب اینجاست که تعداد پارامترهای مدل رو حدود ۱.۶ برابر کمتر کرده (پارامترها یعنی همون مقادیر قابل یادگیری مدل، که هرچی کمتر باشه مدل سبکتر و سریعتره) و سرعتش هم ۲.۱ برابر بیشتر شده! یعنی هم دقیقتر کار میکنه، هم سبکتر و سریعتره، که خیلی خاصه.
اگه دوست داری کدها یا جزییات بیشتری رو ببینی، پروژه چیمر رو گذاشتن روی گیتهاب به آدرس: https://github.com/silvada95/Chimera. خلاصه؛ چیمر واقعاً یه گام روبهجلو برای وصل کردن هوش مصنوعی به دوربینهای آیندهست! اگه دنبال یه مدل خفن و بهینه برای شناسایی اشیا توی دادههای event-based هستی، حتماً اینو چک کن.
منبع: +