هوش مصنوعی که مثل مغز ما صدا و تصویر رو می‌فهمه!

تا حالا فکر کردی چجوری مغزمون وقتی داریم فیلم یا یه نفر رو نگاه می‌کنیم، صدا و تصویر رو با هم قاطی می‌کنه و حس طبیعی بودن بهمون می‌ده؟ یه تیم از دانشگاه لیورپول یه مدل کامپیوتری جدید ساخته‌ که دقیقاً الهام گرفته از مغز حشره‌هاس و باعث می‌شه کامپیوترها هم بتونن مثل ما یا حتی حیوانات دیگه، صدا و تصویر رو با هم قاتی کنن و بفهمن!

ماجرا از این قراره که مغز حشره‌ها یه سیستمی داره که می‌تونه حرکت رو تشخیص بده. دکتر چزاره پریزه (Dr. Cesare Parise) که نویسنده ارشد این تحقیق هست، اومده همین سیستم رو برای پردازش صدا و تصویر واقعی مثل ویدیوها و صداها پیاده‌سازی کرده، و این یعنی دیگه خبری از مدل‌های قدیمی و خشک نیست که فقط با پارامترهای عجیب و غریب کار می‌کردن.

وقتی ما داریم حرف زدن یه نفر رو می‌بینیم، مغزمون خیلی سریع حرکت لب‌ها رو با صدایی که می‌شنوه هماهنگ (سینک) می‌کنه. مثلاً احتمالاً اسم McGurk effect به گوش‌ت خورده باشه. این یه توهم شنیداری جذابه که وقتی حرکت لب‌ها و صدایی که می‌شنویی فرق کنن، مغزت چیز سومی رو می‌سازه! یا اون تردستی معروف عروسک‌گردان‌ها یعنی ventriloquist illusion، که صدا رو اینطور بهت القا می‌کنن انگار عروسک داره حرف می‌زنه، نه آدم!

پریزه و همکارش مارک ارنست از آلمان، کلی تحقیق کردن تا بفهمن مغز چطوری متوجه می‌شه که صدا و تصویر مال یه چیزه یا نه. تو مدل قبلی‌شون که اسمش Multisensory Correlation Detector یا به اختصار MCD بود (یعنی یه آشکارساز که همزمانی سیگنال‌ها رو شناسایی می‌کنه)، تونستن رفتار آدم رو تو تست‌های ساده‌ای مثل درخشش نور و صدای کلیک تقلید کنن.

اما تو پژوهش جدید، اومدن تعداد زیادی از این آشکارسازها رو تو یه شبکه مثل مش، تو فضای بصری و صوتی کنار هم چیدن. خلاصه که این مدله می‌تونه خیلی راحت با سیگنال‌های واقعی و پیچیده، دقیقاً اون چیزی که ما تو دنیای واقعی تجربه می‌کنیم رو پردازش کنه.

این مدل رو روی داده‌های ۶۹ تا آزمایش معروف که روی آدم‌ها، میمون‌ها و حتی رت‌ها انجام شده امتحان کردن و جواب داده! یعنی نه فقط می‌تونه رفتار آدم رو شبیه‌سازی کنه، بلکه تو مقایسه با مدل Bayesian Causal Inference که قبلاً بهترین بود، با همین تعداد تنظیمات ساده، حتی بهتر عمل کرده. (مدل Bayesian Causal Inference یعنی مدلی که می‌خواد علت و معلول رو تو ادغام حس‌ها بررسی کنه.)

یه نکته باحال اینکه این مدل تونسته دقیقا پیش‌بینی کنه وقتی آدم‌ها فیلم نگاه می‌کنن، نگاهشون کجاها متمرکز می‌شه. به این می‌گن “saliency model” یعنی مدلی که تعیین می‌کنه چه بخش‌هایی از یه تصویر یا صحنه بیشتر برای مغز مهم یا جالبه، اونم با سبک و سیاق خیلی سبک و جمع‌وجور (lightweight).

پریزه می‌گه این مدل جدید هم خیلی ساده‌س، هم مستقیم و بدون نیاز به آموزش (training) کار می‌کنه، یعنی لازم نیست مثل مدل‌های هوشمصنوعی دیگه، تریلیون‌ها داده بهش بدن تا کار کنه. مدلشون با همون ورودی‌های واقعی، همه جوره جواب می‌ده و لازم نیست مثل شبکه‌های عصبی بزرگ که هزار تا پارامتر دارن و باید کلی آموزش ببینن، این مدلم اذیتتون کنه.

در کل اگه بخوام خلاصه کنم: این مدلی که اولش واسه دیدن حرکت توسط حشره‌ها ساخته شده بود، الان داره نشون می‌ده مغز ما (و کلی حیوان دیگه!) چطور می‌تونه تو انواع شرایط پیچیده دنیا، صوت و تصویر رو قاطی کنه و بفهمه. این نه تنها می‌تونه تو توضیح توهم‌هایی مثل McGurk و صداگذاری عروسک‌گردان‌ها کمک کنه، بلکه برای هوشمصنوعی‌های آینده یه نقشه راه جدید می‌ده تا اونا هم مثل ما دنیا رو طبیعی‌تر و چندحسی‌تر ببینن و بشنون.

راستی اگه دوست داشتی مقاله کامل رو تو مجله علمی eLife می‌تونی بخونی! حیفه از دستش بدی، پر از اطلاعات جالبه.

منبع: +