چطور گفتار رو تو شلوغ‌ترین و سخت‌ترین شرایط میشه قشنگ جدا و شفاف کرد؟ یه مدل صوتی-تصویری باحال!

اگه تجربه کردی که توی یه جمع شلوغ یا یه سالن بزرگ، حرف زدن و شنیدن صدای طرف مقابل چقدر سخته، دقیقاً همون مشکلیه که یه دسته از دانشمندها دارن سعی می‌کنن باهاش دست و پنجه نرم کنن! به این قضیه میگن «افزایش کیفیت گفتار صوتی-تصویری» یا همون Audio-Visual Speech Enhancement (که خودش یعنی بهتر کردن کیفیت صدای صحبت یه نفر با کمک اطلاعات تصویری مثل حرکت لب‌ها و صورتش).

معمولاً وقتی حرف از این قضیه میشه، مدل‌ها و دستگاه‌هایی که ازش استفاده می‌کنن تو چالش‌هایی مثلاً صدای مزاحم، اکو (یا همون رِوِربریشن، یعنی تکرار صدا تو محیطای بزرگ)، یا شرایط عجیب غریب دیگه، خیلی خوب جواب نمی‌دن و صدای استخراج‌شده جوری نیست که خیلی به دل بشینه، مخصوصاً برای شنونده‌ها.

حالا یه تیم باحال توی مقاله‌ای گفته که راه حل جدید و موثری برای این مشکل پیدا کردن! اینا اومدن یه سیستمی طراحی کردن که اول صداهای مختلف رو از هم «جدا» می‌کنه (Separation یعنی جدا کردن صدای افراد مختلف از هم تو محیط‌های شلوغ)، بعد میره سراغ «حذف اکو» (Dereverberation یعنی از بین بردن اون تکرار و حالت کشیدی که تو سالن‌های خالی یا فضاهای بزرگ می‌شنوی).

نکته‌ی جالبش اینه که این روش جداسازی قبل از حذف اکو رو میشه راحت روی مدل‌های دیگه‌ی مشابه هم پیاده کرد. یعنی انگار یه ویژگی اضافه‌ست که با بقیه مدل‌ها هم جور درمیاد.

برای اینکه این مدل جدید و باحال رو بسنجن، اومدن توی یه مسابقه جهانی شرکت کردن به اسم AVSEC-4 (این مسابقات مخصوص مدل‌های صوتی-تصویریه و هدفش پیدا کردن بهترین راه‌ها برای مواجهه با محیط‌های پیچیده و چندموداله‌ست؛ چندموداله یعنی جایی که هم تصویر داری و هم صدا!).

نتیجه کارشون هم ترکونده: این مدل هم تو تست‌های کاملاً عدد و رقم‌دار (یعنی Objective Metrics که شاخص‌های سنجش ماشینی هستن مثلاً میزان نویز، شفافیت صدا و این جور چیزها) عالی جواب داده، هم تو آزمون شنیدن (که دیگه خود آدما می‌شنون و نظر می‌دن، یعنی Human Subjective Listening) رتبه اول رو گرفته.

در کل، این مقاله نشون میده که راه حل‌های ترکیبی صوتی-تصویری که هوشمندانه طراحی شدن، می‌تونن تو شرایط خیلی پیچیده و شلوغ، صدای اصلیِ نفر موردنظر رو از بقیه جدا و شفاف کنن. خلاصه اگه روزی توی دنیای واقعی مدل‌های اینجوری استفاده بشن، موقع تماس تصویری یا ضبط صدا توی برنامه‌های شلوغ، دیگه داستان صداهای مزاحم و اکوی آزاردهنده تمومه! همین قدر هیجان‌انگیز و آینده‌نگرانه!

منبع: +