خب بچهها، بذارین یه داستان باحال براتون تعریف کنم درباره اینکه چطور کامپیوترها دارن کمک میکنن آدمهایی که مشکل صحبت کردن دارن، بتونن راحتتر با بقیه حرف بزنن. مشکل اصلی اینه که اکثر مردم زبان اشاره رو بلد نیستن و این باعث میشه ارتباط بین آدمهایی که مشکل گفتاری دارن و بقیه سخت بشه.
اینجا همون جاییه که Computer Vision یا بینایی کامپیوتری وارد میشه. بینایی کامپیوتری در واقع تکنولوژییه که به کامپیوتر کمک میکنه بتونه تصاویر و ویدیوها رو مثل آدم ببینه و بفهمه. کلی تحقیق و پژوهش تو این حوزه انجام شده که چطور میشه حرکتهای دست و نشونههای زبان اشاره رو از تو ویدیو تشخیص داد. اما یه مشکل بزرگ هنوز هست: اکثر نشونههای زبان اشاره یه حرکت ساده و ثابت نیستن، بلکه چندتا فریم یا قاب ویدیو رو شامل میشن و پویان! یعنی باید همزمان هم حرکتها و ترتیبشون فهمیده بشه.
توی یکی از پروژههای جالب، اومدن و از دیتاست یا مجموعهی دادهی زبان اشاره تانزانیایی استفاده کردن. دیتاست یعنی یه عالمه ویدیوی ضبطشده که نشونههای زبان اشاره توش هست. این ویدیوها رو هم با دوربین سلفی موبایل گرفتن و خب واقعاً کار رو جذابتر میکنه، چون هر کسی میتونه ویدیو بگیره!
حالا بریم سراغ مدلهای هوش مصنوعیای که استفاده کردن. دو مدل معروف شبکه عصبی عمیق رو امتحان کردن: CNN-LSTM و CNN-GRU.
- CNN یا همون شبکه عصبی کانولوشنی یعنی یه نوع مدل یادگیری ماشین که خیلی خوب بلده اطلاعات فضایی (مثلاً اینکه دست کجای تصویر قرار گرفته) رو بفهمه.
- LSTM و GRU هم نوعی RNN یا Recurrent Neural Network هستن. اینا شبکههایی هستن که میتونن اطلاعات زمانی رو دنبال کنن – یعنی بفهمن تو یه سری فریم ویدیویی چه اتفاقی میفته یا ترتیب حرکات چیه.
بررسیشون بیشتر روی ترکیب این مدلها بود، مخصوصاً مدل CNN-GRU و یه چیزی به اسم تابع فعالسازی ELU. حالا ELU چیه؟ همون تابعیه که به مدل کمک میکنه سریعتر و بهتر یاد بگیره و گیر نکنه سر مشکلات عددی.
نتیجه واقعاً جالب بود! مدل جدیدشون یعنی CNN-GRU با ELU تونست ۹۴٪ دقت داشته باشه، در حالی که مدل قبلی (بدون ELU) و حتی مدل CNN-LSTM جفتشون ۹۳٪ بودن. شاید بگید یک درصد خیلی مهم نیست، ولی تو اینجور کارا هر درصد کلی فرق میکنه!
البته یه بخش چالشبرانگیز هم داشتن: اینکه مدل چقدر میتونه نشونههای آدمهای مختلف (که قبلاً نمونهشون رو تو دیتاست ندیده) رو تشخیص بده. به این میگن “استقلال از اشارهگر” یا signer-independence. نتیجه این بود که این دقت خیلی پایینتر اومد و مثلاً بیشترین دقت برای بعضی افراد فقط ۶۶٪ بود. پس هنوز راه زیادی مونده تا این مدلها بتونن واقعاً برای همه کاربردی بشن.
یادشون نره که همین الانم مدلها با چالشهایی مثل راستدست یا چپدست بودن آدمها مواجهن. یعنی باید ویژگیهای فضایی (اینکه کدوم دست استفاده میشه و حرکات کجای تصویر انجام میشه) رو حتی بهتر تشخیص بدن تا نتیجه عالیتر شه.
در کل، این پروژه نشون داد ترکیب مدلهای CNN و GRU با یه ذره نوآوری میتونه زبان اشاره رو با دقت بالا بفهمه، هرچند هنوز تو استقلال از اشارهگرها ضعفهایی هست و کار برای پیشرفت بازه. خلاصه اینکه آینده داره هیجانانگیز میشه و شاید خیلی زود بتونیم کامپیوترهایی داشته باشیم که زبان اشاره رو مثل یه آدم واقعی بفهمن و ترجمه کنن!
منبع: +