اگه تجربه کردی که توی یه جمع شلوغ یا یه سالن بزرگ، حرف زدن و شنیدن صدای طرف مقابل چقدر سخته، دقیقاً همون مشکلیه که یه دسته از دانشمندها دارن سعی میکنن باهاش دست و پنجه نرم کنن! به این قضیه میگن «افزایش کیفیت گفتار صوتی-تصویری» یا همون Audio-Visual Speech Enhancement (که خودش یعنی بهتر کردن کیفیت صدای صحبت یه نفر با کمک اطلاعات تصویری مثل حرکت لبها و صورتش).
معمولاً وقتی حرف از این قضیه میشه، مدلها و دستگاههایی که ازش استفاده میکنن تو چالشهایی مثلاً صدای مزاحم، اکو (یا همون رِوِربریشن، یعنی تکرار صدا تو محیطای بزرگ)، یا شرایط عجیب غریب دیگه، خیلی خوب جواب نمیدن و صدای استخراجشده جوری نیست که خیلی به دل بشینه، مخصوصاً برای شنوندهها.
حالا یه تیم باحال توی مقالهای گفته که راه حل جدید و موثری برای این مشکل پیدا کردن! اینا اومدن یه سیستمی طراحی کردن که اول صداهای مختلف رو از هم «جدا» میکنه (Separation یعنی جدا کردن صدای افراد مختلف از هم تو محیطهای شلوغ)، بعد میره سراغ «حذف اکو» (Dereverberation یعنی از بین بردن اون تکرار و حالت کشیدی که تو سالنهای خالی یا فضاهای بزرگ میشنوی).
نکتهی جالبش اینه که این روش جداسازی قبل از حذف اکو رو میشه راحت روی مدلهای دیگهی مشابه هم پیاده کرد. یعنی انگار یه ویژگی اضافهست که با بقیه مدلها هم جور درمیاد.
برای اینکه این مدل جدید و باحال رو بسنجن، اومدن توی یه مسابقه جهانی شرکت کردن به اسم AVSEC-4 (این مسابقات مخصوص مدلهای صوتی-تصویریه و هدفش پیدا کردن بهترین راهها برای مواجهه با محیطهای پیچیده و چندمودالهست؛ چندموداله یعنی جایی که هم تصویر داری و هم صدا!).
نتیجه کارشون هم ترکونده: این مدل هم تو تستهای کاملاً عدد و رقمدار (یعنی Objective Metrics که شاخصهای سنجش ماشینی هستن مثلاً میزان نویز، شفافیت صدا و این جور چیزها) عالی جواب داده، هم تو آزمون شنیدن (که دیگه خود آدما میشنون و نظر میدن، یعنی Human Subjective Listening) رتبه اول رو گرفته.
در کل، این مقاله نشون میده که راه حلهای ترکیبی صوتی-تصویری که هوشمندانه طراحی شدن، میتونن تو شرایط خیلی پیچیده و شلوغ، صدای اصلیِ نفر موردنظر رو از بقیه جدا و شفاف کنن. خلاصه اگه روزی توی دنیای واقعی مدلهای اینجوری استفاده بشن، موقع تماس تصویری یا ضبط صدا توی برنامههای شلوغ، دیگه داستان صداهای مزاحم و اکوی آزاردهنده تمومه! همین قدر هیجانانگیز و آیندهنگرانه!
منبع: +