چطوری با هوش مصنوعی میشه زبان اشاره رو راحت‌تر فهمید؟

خب بچه‌ها، بذارین یه داستان باحال براتون تعریف کنم درباره اینکه چطور کامپیوترها دارن کمک می‌کنن آدم‌هایی که مشکل صحبت کردن دارن، بتونن راحت‌تر با بقیه حرف بزنن. مشکل اصلی اینه که اکثر مردم زبان اشاره رو بلد نیستن و این باعث میشه ارتباط بین آدم‌هایی که مشکل گفتاری دارن و بقیه سخت بشه.

اینجا همون جاییه که Computer Vision یا بینایی کامپیوتری وارد میشه. بینایی کامپیوتری در واقع تکنولوژییه که به کامپیوتر کمک می‌کنه بتونه تصاویر و ویدیوها رو مثل آدم ببینه و بفهمه. کلی تحقیق و پژوهش تو این حوزه انجام شده که چطور میشه حرکت‌های دست و نشونه‌های زبان اشاره رو از تو ویدیو تشخیص داد. اما یه مشکل بزرگ هنوز هست: اکثر نشونه‌های زبان اشاره یه حرکت ساده و ثابت نیستن، بلکه چندتا فریم یا قاب ویدیو رو شامل می‌شن و پویان! یعنی باید همزمان هم حرکت‌ها و ترتیبشون فهمیده بشه.

توی یکی از پروژه‌های جالب، اومدن و از دیتاست یا مجموعه‌ی داده‌ی زبان اشاره تانزانیایی استفاده کردن. دیتاست یعنی یه عالمه ویدیوی ضبط‌شده که نشونه‌های زبان اشاره توش هست. این ویدیوها رو هم با دوربین سلفی موبایل گرفتن و خب واقعاً کار رو جذاب‌تر می‌کنه، چون هر کسی می‌تونه ویدیو بگیره!

حالا بریم سراغ مدل‌های هوش مصنوعی‌ای که استفاده کردن. دو مدل معروف شبکه عصبی عمیق رو امتحان کردن: CNN-LSTM و CNN-GRU.

CNN یا همون شبکه عصبی کانولوشنی یعنی یه نوع مدل یادگیری ماشین که خیلی خوب بلده اطلاعات فضایی (مثلاً اینکه دست کجای تصویر قرار گرفته) رو بفهمه.
LSTM و GRU هم نوعی RNN یا Recurrent Neural Network هستن. اینا شبکه‌هایی هستن که می‌تونن اطلاعات زمانی رو دنبال کنن – یعنی بفهمن تو یه سری فریم ویدیویی چه اتفاقی میفته یا ترتیب حرکات چیه.

بررسیشون بیشتر روی ترکیب این مدل‌ها بود، مخصوصاً مدل CNN-GRU و یه چیزی به اسم تابع فعال‌سازی ELU. حالا ELU چیه؟ همون تابعیه که به مدل کمک می‌کنه سریع‌تر و بهتر یاد بگیره و گیر نکنه سر مشکلات عددی.

نتیجه واقعاً جالب بود! مدل جدیدشون یعنی CNN-GRU با ELU تونست ۹۴٪ دقت داشته باشه، در حالی که مدل قبلی (بدون ELU) و حتی مدل CNN-LSTM جفتشون ۹۳٪ بودن. شاید بگید یک درصد خیلی مهم نیست، ولی تو اینجور کارا هر درصد کلی فرق می‌کنه!

البته یه بخش چالش‌برانگیز هم داشتن: اینکه مدل چقدر می‌تونه نشونه‌های آدم‌های مختلف (که قبلاً نمونه‌شون رو تو دیتاست ندیده) رو تشخیص بده. به این میگن “استقلال از اشاره‌گر” یا signer-independence. نتیجه این بود که این دقت خیلی پایین‌تر اومد و مثلاً بیشترین دقت برای بعضی افراد فقط ۶۶٪ بود. پس هنوز راه زیادی مونده تا این مدل‌ها بتونن واقعاً برای همه کاربردی بشن.

یادشون نره که همین الانم مدل‌ها با چالش‌هایی مثل راست‌دست یا چپ‌دست بودن آدم‌ها مواجهن. یعنی باید ویژگی‌های فضایی (اینکه کدوم دست استفاده میشه و حرکات کجای تصویر انجام میشه) رو حتی بهتر تشخیص بدن تا نتیجه عالی‌تر شه.

در کل، این پروژه نشون داد ترکیب مدل‌های CNN و GRU با یه ذره نوآوری می‌تونه زبان اشاره رو با دقت بالا بفهمه، هرچند هنوز تو استقلال از اشاره‌گرها ضعف‌هایی هست و کار برای پیشرفت بازه. خلاصه اینکه آینده داره هیجان‌انگیز میشه و شاید خیلی زود بتونیم کامپیوترهایی داشته باشیم که زبان اشاره رو مثل یه آدم واقعی بفهمن و ترجمه کنن!

منبع: +