امروز میخوام از یه مدل کاملاً جدید و جذاب به اسم GACA-DiT براتون بگم که داره حسابی تو دنیای هوش مصنوعی و موسیقی سر و صدا کرده! این سیستم مخصوص وقتی طراحی شده که میخواین فقط با یه ویدئوی رقص، براش یه آهنگ کاملاً هماهنگ و ریتمدار بسازین – دقیقاً همونجوری که بدن حرکات رو برای موزیک طلب میکنه.
اول بذار یه کم از مشکل مدلهای قبلی بهت بگم: تا الان خیلی از این مدلها برای ساخت آهنگ با رقص، فقط سراغ یه سری ویژگی کلی بدن میرفتن یا حالتی دودوتایی به حرکات بدن نگاه میکردن (مثلاً میگفتن “این مفصل حرکت کرد یا نه؟”). خب این یعنی کلی جزئیات نابود میشه و آهنگ نهایی خیلی دقیق و باحال با رقص هماهنگ نمیشه. تازه، وقتی از ویژگیها نمونهبرداری پایینتر میگیرن – یعنی اطلاعات رو کمتر و سادهتر میکنن – دیگه اون دقت زمانی و ریتمی که لازمه حسابی میره رو هوا!
حالا GACA-DiT اومده یه کار حرفهای کنه و این مشکل رو با دوتا ایده جمع و جور حل کرده: یکی “استخراج ریتم تطبیقی با سبک موسیقی” و دومی “همترازی زمانی آگاه از زمینه”. بذار یکی یکی توضیحشون بدم:
اولی، یعنی استخراج ریتم تطبیقی با سبک، خیلی خفن عمل میکنه – با کمک تحلیل موجکهای زمانی (Wavelet Analysis) که اگه بخوای ساده بدونی، یعنی حرکات رو تو بازههای زمانی مختلف بررسی میکنه و اطلاعات ریتم رو همراه با هیستوگرام فازی فضایی (یعنی بررسی فاز حرکات بدن تو فضا) با وزندهی مفصلها ترکیب میکنه. یه جور فیلتراسیون حرکاته که به سبک (ژانر) اون رقص هم وابستهست و برای همین همه ریزهکاریهای خاص هر سبک موقع ساخت آهنگ حفظ میشه.
ماژول دوم، همترازی زمانی آگاه از زمینه، با یه ایده جالب میاد سراغ آهنگسازی: اینجا مدل میتونه با یه جور کانتکست کوئری (یعنی بررسی حالت فعلی حرکات تو یه بازه کوتاه قبلی-بعدی) ریتم رقص و موزیک رو با هم دقیق هماهنگ کنه. نتیجهاش چیه؟ دیگه اختلالهای زمانی و بهمریختگی بین موسیقی و رقص نمیبینیم و همه چی تو اوج سینک پیش میره؛ یعنی هر جا بدن میلرزه، صداش تو آهنگم حس میشه.
برای این که حرفاشون رو ثابت کنن، حسابی مدل رو روی دیتاستهای معروف مثل AIST++ و کلی ویدئوهای تیکتاک امتحان کردن (AIST++ و TikTok dataset، یعنی مجموعه ویدئوهایی که کلی رقص با ژانر مختلف توشونه و دادهآی واقعیاند). نتیجه هم این بوده که نسبت به بقیه مدلهای حرفهای، GACA-DiT تو تستهای عددی و همینطور بین کاربرا که خود ماها باشیم، بهتر و جذابتر آهنگ میسازه.
اگه دوس داری خودت یه نگاهی بندازی یا نمونه آهنگهای ساخته شدهش رو گوش بدی، برو به صفحه پروژهشون: https://beria-moon.github.io/GACA-DiT/
خلاصه! اگه روزی خواستی فقط بر اساس حرکات یه رقص، آهنگ بسازی که صد درصد با حال و هوای هر حرکت بدن هماهنگ باشه، دیگه بدون GACA-DiT چی کار میکنه و چجوری با یه عالمه تکنیک هوش مصنوعی فرق دنیای رقص و موسیقی رو پر کرده!
منبع: +