تا حالا فکر کردی چجوری مغزمون وقتی داریم فیلم یا یه نفر رو نگاه میکنیم، صدا و تصویر رو با هم قاطی میکنه و حس طبیعی بودن بهمون میده؟ یه تیم از دانشگاه لیورپول یه مدل کامپیوتری جدید ساخته که دقیقاً الهام گرفته از مغز حشرههاس و باعث میشه کامپیوترها هم بتونن مثل ما یا حتی حیوانات دیگه، صدا و تصویر رو با هم قاتی کنن و بفهمن!
ماجرا از این قراره که مغز حشرهها یه سیستمی داره که میتونه حرکت رو تشخیص بده. دکتر چزاره پریزه (Dr. Cesare Parise) که نویسنده ارشد این تحقیق هست، اومده همین سیستم رو برای پردازش صدا و تصویر واقعی مثل ویدیوها و صداها پیادهسازی کرده، و این یعنی دیگه خبری از مدلهای قدیمی و خشک نیست که فقط با پارامترهای عجیب و غریب کار میکردن.
وقتی ما داریم حرف زدن یه نفر رو میبینیم، مغزمون خیلی سریع حرکت لبها رو با صدایی که میشنوه هماهنگ (سینک) میکنه. مثلاً احتمالاً اسم McGurk effect به گوشت خورده باشه. این یه توهم شنیداری جذابه که وقتی حرکت لبها و صدایی که میشنویی فرق کنن، مغزت چیز سومی رو میسازه! یا اون تردستی معروف عروسکگردانها یعنی ventriloquist illusion، که صدا رو اینطور بهت القا میکنن انگار عروسک داره حرف میزنه، نه آدم!
پریزه و همکارش مارک ارنست از آلمان، کلی تحقیق کردن تا بفهمن مغز چطوری متوجه میشه که صدا و تصویر مال یه چیزه یا نه. تو مدل قبلیشون که اسمش Multisensory Correlation Detector یا به اختصار MCD بود (یعنی یه آشکارساز که همزمانی سیگنالها رو شناسایی میکنه)، تونستن رفتار آدم رو تو تستهای سادهای مثل درخشش نور و صدای کلیک تقلید کنن.
اما تو پژوهش جدید، اومدن تعداد زیادی از این آشکارسازها رو تو یه شبکه مثل مش، تو فضای بصری و صوتی کنار هم چیدن. خلاصه که این مدله میتونه خیلی راحت با سیگنالهای واقعی و پیچیده، دقیقاً اون چیزی که ما تو دنیای واقعی تجربه میکنیم رو پردازش کنه.
این مدل رو روی دادههای ۶۹ تا آزمایش معروف که روی آدمها، میمونها و حتی رتها انجام شده امتحان کردن و جواب داده! یعنی نه فقط میتونه رفتار آدم رو شبیهسازی کنه، بلکه تو مقایسه با مدل Bayesian Causal Inference که قبلاً بهترین بود، با همین تعداد تنظیمات ساده، حتی بهتر عمل کرده. (مدل Bayesian Causal Inference یعنی مدلی که میخواد علت و معلول رو تو ادغام حسها بررسی کنه.)
یه نکته باحال اینکه این مدل تونسته دقیقا پیشبینی کنه وقتی آدمها فیلم نگاه میکنن، نگاهشون کجاها متمرکز میشه. به این میگن “saliency model” یعنی مدلی که تعیین میکنه چه بخشهایی از یه تصویر یا صحنه بیشتر برای مغز مهم یا جالبه، اونم با سبک و سیاق خیلی سبک و جمعوجور (lightweight).
پریزه میگه این مدل جدید هم خیلی سادهس، هم مستقیم و بدون نیاز به آموزش (training) کار میکنه، یعنی لازم نیست مثل مدلهای هوشمصنوعی دیگه، تریلیونها داده بهش بدن تا کار کنه. مدلشون با همون ورودیهای واقعی، همه جوره جواب میده و لازم نیست مثل شبکههای عصبی بزرگ که هزار تا پارامتر دارن و باید کلی آموزش ببینن، این مدلم اذیتتون کنه.
در کل اگه بخوام خلاصه کنم: این مدلی که اولش واسه دیدن حرکت توسط حشرهها ساخته شده بود، الان داره نشون میده مغز ما (و کلی حیوان دیگه!) چطور میتونه تو انواع شرایط پیچیده دنیا، صوت و تصویر رو قاطی کنه و بفهمه. این نه تنها میتونه تو توضیح توهمهایی مثل McGurk و صداگذاری عروسکگردانها کمک کنه، بلکه برای هوشمصنوعیهای آینده یه نقشه راه جدید میده تا اونا هم مثل ما دنیا رو طبیعیتر و چندحسیتر ببینن و بشنون.
راستی اگه دوست داشتی مقاله کامل رو تو مجله علمی eLife میتونی بخونی! حیفه از دستش بدی، پر از اطلاعات جالبه.
منبع: +