اگه اهل یادگیری موسیقی باشی یا حتی یکی از دوستات پیانو یا ساز دیگهای بزنه، احتمالاً میدونی که پیدا کردن اشتباهات موقع تمرین کار آسونی نیست؛ مخصوصاً اگه بخوای بدون معلم یا تو خونه تمرین کنی. تا الان، ابزارهایی که برای این کار ساخته شده بودن، بیشتر سعی میکردن با مقایسه صدای ضبط شده از نوازندگی با نُتهای موسیقی، اشتباهات رو پیدا کنن. مثلاً یا با روشهای تجربی (یعنی همون heuristic که یعنی یه جور حدس و آزمون و خطا با قاعده هست) یا با مدلهای قابل آموزش (یعنی مدلهایی که با دیتا یاد میگیرن).
حالا یه تیم خلاق اومدن یه راه کاملاً تازه معرفی کردن: اسم مدلشون رو گذاشتن LadderSym. این مدل بر پایه همون Transformerها ساخته شده که تو ChatGPT و بقیه ابزار هوش مصنوعی هم به کار میرن! Transformer یه معماری معروف در یادگیری ماشین و مخصوص کار با اطلاعات ترتیبی (مثل متن یا نت موسیقی) هست.
چی باعث شده LadderSym متفاوت باشه؟
خب، اونا گفتن دو تا ایراد اصلی تو روشهای قبلی هست: یکی اینکه معمولاً این ابزارها اطلاعات صوت و نُت رو، خیلی دیر و موقع آخر با هم ترکیب میکنن (اسمش Late Fusion ـه که یعنی دوتا جریان اطلاعات رو فقط تهش با هم یکی میکنن) و این باعث میشه تطبیقشون دقیق نباشه و نتونن خوب مقایسه کنن که آدما کجا اشتباه زدن. دوم اینکه خیلی به صوت تولید شده از روی نت وابسته هستن و اینم وقتی که چندتا نت همزمان نواخته میشه باعث قاطی شدن صداها میشه و مدل نمیفهمه دقیقاً چه خبره.
راه حل LadderSym چیه؟ اینا دو تا نوآوری مهم آوردن:
-
مدلشون دو تا جریان رمزگذار داره که با کمک ماژولهای تطبیقدهنده (inter-stream alignment modules یعنی بخشی که جریان صوت و جریان نت رو تا آخر با هم هماهنگ و مقایسه میکنه) کمک میکنه اشتباهات رو دقیقتر تشخیص بده و عملکرد مدل بر حسب F1 (یه معیار برای دقت مدلهای تشخیص) رو بهتر کنه.
-
روششون از هر دو نوع داده استفاده میکنه: هم صدای نوازندگی، هم نت به صورت نمادین (symbolic score یعنی همون نتنویسی دیجیتال یا کُد شده). این اطلاعات نمادین رو موقع رمزگشایی (decoding) به عنوان راهنما به مدل میدن (بهش میگن decoder prompts، یعنی شاخصهایی برای کمک به مدل که راه درست رو پیدا کنه) و باعث میشه مدل کمتر گیج بشه و خطاهاش کمتر شه.
برای اینکه بگن این روش واقعاً جواب میده، دوتا دیتاست معروف رو تست کردن: MAESTRO-E و CocoChorales-E. اومدن نگاه کردن که مدلشون چقدر خوب میتونه نُتهای جا افتاده یا نُتهای اضافی (که اشتباهاً نواخته شده) رو پیدا کنه. نتایج فوقالعاده بوده:
• برای نتهای جاافتاده، مدل قبلی فقط ۲۶.۸٪ موفق بود، ولی LadderSym این رو به ۵۶.۳٪ رسوند! (بیش از دو برابر)
• برای پیدا کردن نتهای اضافی، از ۷۲.۰٪ به ۸۶.۴٪ رسوند که کلی پیشرفته.
• روی دیتاست دوم هم تقریباً همین مقدار پیشرفت دیدن.
جالبه که این مدل نه فقط برای موسیقی، بلکه میتونه الهامبخش کارهایی باشه مثل ارزیابی کار رباتها با reinforcement learning (یعنی سبک آموزش با پاداش و تنبیه، چیزی که تو رباتیک و بازیهای کامپیوتری کاربرد داره)، سنجش مهارت انسانها، یا تست کردن عملکرد مدلهای دیگه.
خلاصه اگه دنبال یه مدل هوشمند و جدی برای کمک تو تمرین موسیقی هستی، یا حتی دوست داری تو پروژههات از همچین ایدههایی استفاده کنی، LadderSym میتونه یکی از جذابترین نمونههای امروزی باشه که نشون میده ترکیب چند مدل داده و هماهنگ کردنشون چه نتایج فوقالعادهای میده.
منبع: +