خب ببین، امروز میخوام یه تکنولوژی خفن رو بهت معرفی کنم که اسمش AutoMashup هست. حالا Mashup یعنی چی؟ همون آهنگهای ترکیبی که چندتا موزیک معروفو بر میدارن و با هم قاطی میکنن تا یه آهنگ جدید و خلاقانه بسازن. مثلاً حتماً شنیدی آهنگهایی که خوانندهاش یکیه اما بیت یا موسیقی پسزمینهش متفاوته یا برعکس!
حالا AutoMashup چی کار میکنه؟ این سیستم با کمک چندتا تکنولوژی پیشرفته مثل منبعجداسازی (Source Separation)، تحلیل موسیقی، و همینطور تخمین میزان سازگاری، خودش میتونه به صورت خودکار آهنگ mashup بسازه.
منبعجداسازی یعنی سیستم میتونه آهنگو به قطعات مختلفی مثل وکال (همون صدای خواننده) و سازها یا بَکگرَند جدا کنه. بعدش با تحلیل موسیقی، هر بخش آهنگ رو بررسی میکنه تا بفهمه چی به چی میاد و چه ترکیبی جذاب درمیاد.
یه چیز جالب اینه که تو این پروژه، اومدن از یک روش به اسم COCOLA استفاده کردن. حالا COCOLA چیه؟ این یه تکنیک هوشمنده واسه اینکه بررسی کنه اصلاً دو تا تِرَک (Track) چقدر برای ترکیب شدن بهم میان و صداشون خوب با هم مَچ میشه یا نه.
توی این تحقیق گفتن شاید بشه از مدلهای هوش مصنوعی مشهور مثل CLAP و MERT هم برای این کار استفاده کرد. این مدلها بهشون میگن audio models، یعنی مدلهایی که روی دادههای صوتی آموزش دیدن و میتونن صدا رو تحلیل کنن. حتی بهش میگن zero-shot، یعنی بدون نیاز به آموزش اضافی یا تنظیم مخصوص فقط با همون دانش قبلیشون بیان و بگن چه آهنگهایی با هم سازگارن.
اما نتیجه چی شد؟ خب جالبه بدونی فهمیدن که این داستان mashup یه نکته داره: میزان سازگاری آهنگها نامتقارن هست. یعنی اگه آهنگ A رو وکال و آهنگ B رو بکگرند بزاری، شاید درست دربیاد، ولی بالعکسش حتماً خوب نشه! نقش هر آهنگ تو mashup خیلی مهمه.
یه چیز دیگه هم که فهمیدن اینه که مدلهای عمومی هوش مصنوعی فعلاً اونقدر دقیق نیستن که بفهمن کدوما واقعاً با هم جور درمیاد و مثل گوش ماها نمیتونن قضاوت کنن. این نشون میده هر چقدر هم تکنولوژی پیشرفت کنه، هنوز جای گوش دادن و حس کردن خودمون رو نمیگیره!
در کل اگه عاشق آهنگ درست کردن یا ترکیب موزیکی، این ایده AutoMashup میتونه خیلی هیجانانگیز باشه ولی هنوز کامل و بینقص نشده و هوش مصنوعی باید یه کم بیشتر تمرین کنه تا واقعاً بتونه جای یه دیجی حرفهای رو بگیره!
منبع: +