تا حالا به این فکر کردی که چطور میشه از وسط یه آهنگ یا ویدیو که کلی صدای مختلف قاطی شده، صدای یه ساز خاص یا یه نفر رو پیدا کرد و بقیه رو حذف کرد؟! خب این داستان کلی باحال داره که هوش مصنوعی این روزا داره حسابی روش کار میکنه.
تو این مقاله قراره درباره یه روش جدی و خفن برای جدا کردن صداها از هم حرف بزنیم که اسمش هست “Hierarchical Fusion and Representation Alignment”، یعنی چی؟ یعنی یه روش چند مرحلهای برای ترکیب اطلاعات صوتی و تصویری و منطبق کردن ویژگیهاشون با هم. بعداً بیشتر توضیح میدم.
بریم سر اصل ماجرا: این مدلها اسمشونه Audio-Visual Source Separation یعنی جداسازی منابع صوتی با کمک دیدن تصویر. مثلاً فکر کن تو ویدیو یه نفر داره پیانو میزنه و یکی دیگه گیتار، هر دو هم صداشون قاطی میاد. الگوریتمهایی مثل همین روشی که تو این مقاله معرفیش کردن، سعی میکنن صدارو به جزءهاش جدا کنن و فقط صدای پیانو یا فقط صدای گیتار رو تحویل بدن. حالا تکنیکی که اینجا استفاده شده self-supervised هست. یعنی مدل خودش یاد میگیره بدون اینکه معلم مستقیم داشته باشه.
یکی از دغدغههایی که داشتن این بود که چطوری باید اطلاعات ظاهر (یعنی تصویر ویدیو) و صدا رو با هم قاطی کنن که نتیجه بهتر بشه. برای این کار چند جور روش هست:
- Middle Fusion: یعنی وسط کار دو تا داده رو ترکیب میکنن. این روش برای صداهای کوتاه و گذرا (مثلاً یه تیکه زدن گیتار) مناسبتره.
- Late Fusion: یعنی آخرهای کار دادهها رو ترکیب میکنن. این روش برای صداهای پیوسته و ملو (مثلاً یه نت طولانی یا آواز) بهتر جواب میده.
تو این مقاله اومدن این دو تا رو با هم قاطی کردن (بهش میگن Hierarchical Fusion)، یعنی ترکیبی از هر دو مرحله رو استفاده کردن که هم به درد صداهای کوتاه بخوره، هم به درد صداهای بلند و پیچیده. نتیجهش واقعاً خوب شده.
ولی فقط این نیست! یه مشکل دیگه هم هست؛ شبکه باید صداها رو به صورت باکیفیت تبدیل کنه (اندازه بگیره)، اما اگه فقط بذاری خودش از اول همهچیز رو یاد بگیره، کارش سخته. برای همین اومدن نمایههای (representation) باکیفیت صدا رو از یه مدل از قبل آموزشدیده گرفتن و کمک کردن که مدل اصلی، ویژگیهای صوتی خودش رو با اون هماهنگ کنه. به این میگن Representation Alignment یعنی همراستا کردن ویژگیهای نهفته صوتی (یه جور خلاصهسازی اطلاعات صدا که شبکه تو مغزش نگه میداره).
برای اینکه ببینن این روششون چقدر جواب داده، کلی تست تو دیتاستهای معروف مثل MUSIC، MUSIC-21 و VGGSound انجام دادن (این دیتاستها مجموعه بزرگ صدا و تصویر هستن که توش کلی ساز، خواننده و اتفاقات صوتی تصویری هست). نتیجه چی شده؟ مدل جدیدشون هم تو جدا کردن صداها از بقیه مدلها بهتر بوده، هم بخش صوتی با تصویری هماهنگتر شده و شکاف بینشون کمتر شده.
در نهایت، این تحقیق نشون داده اگه هم ترکیب دادهها رو تو چند مرحله انجام بدیم، هم از نمایههای صوتی باکیفیت استفاده کنیم و اونها رو با تصویریها هماهنگ کنیم، مدل میتونه خیلی بهتر بفهمه هر بخش صدا مربوط به کدوم تصویر یا چه آدمی یا سازی هست. خلاصه که هوش مصنوعی با این نوآوریها میتونه صداها رو توی فیلمها و ویدیوها جدا کنه؛ اونم دقیق و تمیز!
منبع: +