رقص رو پخش کن، آهنگ رو بساز! یه مدل باحال برای ساخت موسیقی هماهنگ با رقص

Fall Back

امروز میخوام از یه مدل کاملاً جدید و جذاب به اسم GACA-DiT براتون بگم که داره حسابی تو دنیای هوش مصنوعی و موسیقی سر و صدا کرده! این سیستم مخصوص وقتی طراحی شده که میخواین فقط با یه ویدئوی رقص، براش یه آهنگ کاملاً هماهنگ و ریتم‌دار بسازین – دقیقاً همونجوری که بدن حرکات رو برای موزیک طلب می‌کنه.

اول بذار یه کم از مشکل مدل‌های قبلی بهت بگم: تا الان خیلی از این مدل‌ها برای ساخت آهنگ با رقص، فقط سراغ یه سری ویژگی کلی بدن میرفتن یا حالتی دودوتایی به حرکات بدن نگاه می‌کردن (مثلاً میگفتن “این مفصل حرکت کرد یا نه؟”). خب این یعنی کلی جزئیات نابود میشه و آهنگ نهایی خیلی دقیق و باحال با رقص هماهنگ نمیشه. تازه، وقتی از ویژگی‌ها نمونه‌برداری پایین‌تر می‌گیرن – یعنی اطلاعات رو کمتر و ساده‌تر میکنن – دیگه اون دقت زمانی و ریتمی که لازمه حسابی می‌ره رو هوا!

حالا GACA-DiT اومده یه کار حرفه‌ای کنه و این مشکل رو با دوتا ایده جمع و جور حل کرده: یکی “استخراج ریتم تطبیقی با سبک موسیقی” و دومی “هم‌ترازی زمانی آگاه از زمینه”. بذار یکی یکی توضیحشون بدم:

اولی، یعنی استخراج ریتم تطبیقی با سبک، خیلی خفن عمل میکنه – با کمک تحلیل موجک‌های زمانی (Wavelet Analysis) که اگه بخوای ساده بدونی، یعنی حرکات رو تو بازه‌های زمانی مختلف بررسی میکنه و اطلاعات ریتم رو همراه با هیستوگرام فازی فضایی (یعنی بررسی فاز حرکات بدن تو فضا) با وزن‌دهی مفصل‌ها ترکیب میکنه. یه جور فیلتراسیون حرکاته که به سبک (ژانر) اون رقص هم وابسته‌ست و برای همین همه ریزه‌کاری‌های خاص هر سبک موقع ساخت آهنگ حفظ میشه.

ماژول دوم، هم‌ترازی زمانی آگاه از زمینه، با یه ایده جالب میاد سراغ آهنگسازی: اینجا مدل میتونه با یه جور کانتکست کوئری (یعنی بررسی حالت فعلی حرکات تو یه بازه کوتاه قبلی-بعدی) ریتم رقص و موزیک رو با هم دقیق هماهنگ کنه. نتیجه‌اش چیه؟ دیگه اختلال‌های زمانی و بهم‌ریختگی بین موسیقی و رقص نمی‌بینیم و همه چی تو اوج سینک پیش میره؛ یعنی هر جا بدن می‌لرزه، صداش تو آهنگم حس میشه.

برای این که حرفاشون رو ثابت کنن، حسابی مدل رو روی دیتاست‌های معروف مثل AIST++ و کلی ویدئوهای تیک‌تاک امتحان کردن (AIST++ و TikTok dataset، یعنی مجموعه‌ ویدئوهایی که کلی رقص با ژانر مختلف توشونه و داده‌آی واقعی‌اند). نتیجه هم این بوده که نسبت به بقیه مدل‌های حرفه‌ای، GACA-DiT تو تست‌های عددی و همینطور بین کاربرا که خود ماها باشیم، بهتر و جذاب‌تر آهنگ میسازه.

اگه دوس داری خودت یه نگاهی بندازی یا نمونه آهنگ‌های ساخته شده‌ش رو گوش بدی، برو به صفحه پروژه‌شون: https://beria-moon.github.io/GACA-DiT/

خلاصه! اگه روزی خواستی فقط بر اساس حرکات یه رقص، آهنگ بسازی که صد درصد با حال و هوای هر حرکت بدن هماهنگ باشه، دیگه بدون GACA-DiT چی کار می‌کنه و چجوری با یه عالمه تکنیک هوش مصنوعی فرق دنیای رقص و موسیقی رو پر کرده!

منبع: +