ترکیب و هماهنگی صدا و تصویر: چطور هوش مصنوعی می‌تونه صداها رو جدا کنه؟!

تا حالا به این فکر کردی که چطور می‌شه از وسط یه آهنگ یا ویدیو که کلی صدای مختلف قاطی شده، صدای یه ساز خاص یا یه نفر رو پیدا کرد و بقیه رو حذف کرد؟! خب این داستان کلی باحال داره که هوش مصنوعی این روزا داره حسابی روش کار می‌کنه.

تو این مقاله قراره درباره یه روش جدی و خفن برای جدا کردن صداها از هم حرف بزنیم که اسمش هست “Hierarchical Fusion and Representation Alignment”، یعنی چی؟ یعنی یه روش چند مرحله‌ای برای ترکیب اطلاعات صوتی و تصویری و منطبق کردن ویژگی‌هاشون با هم. بعداً بیشتر توضیح میدم.

بریم سر اصل ماجرا: این مدل‌ها اسمشونه Audio-Visual Source Separation یعنی جداسازی منابع صوتی با کمک دیدن تصویر. مثلاً فکر کن تو ویدیو یه نفر داره پیانو می‌زنه و یکی دیگه گیتار، هر دو هم صداشون قاطی میاد. الگوریتم‌هایی مثل همین روشی که تو این مقاله معرفیش کردن، سعی می‌کنن صدارو به جزءهاش جدا کنن و فقط صدای پیانو یا فقط صدای گیتار رو تحویل بدن. حالا تکنیکی که اینجا استفاده شده self-supervised هست. یعنی مدل خودش یاد می‌گیره بدون این‌که معلم مستقیم داشته باشه.

یکی از دغدغه‌هایی که داشتن این بود که چطوری باید اطلاعات ظاهر (یعنی تصویر ویدیو) و صدا رو با هم قاطی کنن که نتیجه بهتر بشه. برای این کار چند جور روش هست:

Middle Fusion: یعنی وسط کار دو تا داده رو ترکیب می‌کنن. این روش برای صداهای کوتاه و گذرا (مثلاً یه تیکه زدن گیتار) مناسب‌تره.
Late Fusion: یعنی آخرهای کار داده‌ها رو ترکیب می‌کنن. این روش برای صداهای پیوسته و ملو (مثلاً یه نت طولانی یا آواز) بهتر جواب میده.

تو این مقاله اومدن این دو تا رو با هم قاطی کردن (بهش می‌گن Hierarchical Fusion)، یعنی ترکیبی از هر دو مرحله رو استفاده کردن که هم به درد صداهای کوتاه بخوره، هم به درد صداهای بلند و پیچیده. نتیجه‌ش واقعاً خوب شده.

ولی فقط این نیست! یه مشکل دیگه هم هست؛ شبکه باید صداها رو به صورت باکیفیت تبدیل کنه (اندازه بگیره)، اما اگه فقط بذاری خودش از اول همه‌چیز رو یاد بگیره، کارش سخته. برای همین اومدن نمایه‌های (representation) باکیفیت صدا رو از یه مدل از قبل آموزش‌دیده گرفتن و کمک کردن که مدل اصلی، ویژگی‌های صوتی خودش رو با اون هماهنگ کنه. به این میگن Representation Alignment یعنی هم‌راستا کردن ویژگی‌های نهفته صوتی (یه جور خلاصه‌سازی اطلاعات صدا که شبکه تو مغزش نگه می‌داره).

برای اینکه ببینن این روششون چقدر جواب داده، کلی تست تو دیتاست‌های معروف مثل MUSIC، MUSIC-21 و VGGSound انجام دادن (این دیتاست‌ها مجموعه بزرگ صدا و تصویر هستن که توش کلی ساز، خواننده و اتفاقات صوتی تصویری هست). نتیجه چی شده؟ مدل جدیدشون هم تو جدا کردن صداها از بقیه مدل‌ها بهتر بوده، هم بخش صوتی با تصویری هماهنگ‌تر شده و شکاف بینشون کمتر شده.

در نهایت، این تحقیق نشون داده اگه هم ترکیب داده‌ها رو تو چند مرحله انجام بدیم، هم از نمایه‌های صوتی باکیفیت استفاده کنیم و اون‌ها رو با تصویری‌ها هماهنگ کنیم، مدل می‌تونه خیلی بهتر بفهمه هر بخش صدا مربوط به کدوم تصویر یا چه آدمی یا سازی هست. خلاصه که هوش مصنوعی با این نوآوری‌ها می‌تونه صداها رو توی فیلم‌ها و ویدیوها جدا کنه؛ اونم دقیق و تمیز!

منبع: +