LadderSym: انقلاب جدید در تشخیص اشتباهات تمرین موسیقی با کمک هوش مصنوعی

اگه اهل یادگیری موسیقی باشی یا حتی یکی از دوستات پیانو یا ساز دیگه‌ای بزنه، احتمالاً می‌دونی که پیدا کردن اشتباهات موقع تمرین کار آسونی نیست؛ مخصوصاً اگه بخوای بدون معلم یا تو خونه تمرین کنی. تا الان، ابزارهایی که برای این کار ساخته شده بودن، بیشتر سعی می‌کردن با مقایسه صدای ضبط شده از نوازندگی با نُت‌های موسیقی، اشتباهات رو پیدا کنن. مثلاً یا با روش‌های تجربی (یعنی همون heuristic که یعنی یه جور حدس و آزمون و خطا با قاعده هست) یا با مدل‌های قابل آموزش (یعنی مدل‌هایی که با دیتا یاد می‌گیرن).

حالا یه تیم خلاق اومدن یه راه کاملاً تازه معرفی کردن: اسم مدلشون رو گذاشتن LadderSym. این مدل بر پایه همون Transformerها ساخته شده که تو ChatGPT و بقیه ابزار هوش مصنوعی هم به کار می‌رن! Transformer یه معماری معروف در یادگیری ماشین و مخصوص کار با اطلاعات ترتیبی (مثل متن یا نت موسیقی) هست.

چی باعث شده LadderSym متفاوت باشه؟

خب، اونا گفتن دو تا ایراد اصلی تو روش‌های قبلی هست: یکی اینکه معمولاً این ابزارها اطلاعات صوت و نُت رو، خیلی دیر و موقع آخر با هم ترکیب می‌کنن (اسمش Late Fusion ـه که یعنی دوتا جریان اطلاعات رو فقط تهش با هم یکی می‌کنن) و این باعث می‌شه تطبیقشون دقیق نباشه و نتونن خوب مقایسه کنن که آدما کجا اشتباه زدن. دوم اینکه خیلی به صوت تولید شده از روی نت وابسته هستن و اینم وقتی که چندتا نت همزمان نواخته می‌شه باعث قاطی شدن صداها می‌شه و مدل نمی‌فهمه دقیقاً چه خبره.

راه حل LadderSym چیه؟ اینا دو تا نوآوری مهم آوردن:

مدلشون دو تا جریان رمزگذار داره که با کمک ماژول‌های تطبیق‌دهنده (inter-stream alignment modules یعنی بخشی که جریان صوت و جریان نت رو تا آخر با هم هماهنگ و مقایسه می‌کنه) کمک می‌کنه اشتباهات رو دقیق‌تر تشخیص بده و عملکرد مدل بر حسب F1 (یه معیار برای دقت مدلهای تشخیص) رو بهتر کنه.
روششون از هر دو نوع داده استفاده می‌کنه: هم صدای نوازندگی، هم نت به صورت نمادین (symbolic score یعنی همون نت‌نویسی دیجیتال یا کُد شده). این اطلاعات نمادین رو موقع رمزگشایی (decoding) به عنوان راهنما به مدل می‌دن (بهش می‌گن decoder prompts، یعنی شاخص‌هایی برای کمک به مدل که راه درست رو پیدا کنه) و باعث می‌شه مدل کمتر گیج بشه و خطاهاش کمتر شه.

برای اینکه بگن این روش واقعاً جواب می‌ده، دوتا دیتاست معروف رو تست کردن: MAESTRO-E و CocoChorales-E. اومدن نگاه کردن که مدلشون چقدر خوب می‌تونه نُت‌های جا افتاده یا نُت‌های اضافی (که اشتباهاً نواخته شده) رو پیدا کنه. نتایج فوق‌العاده بوده:

• برای نت‌های جاافتاده، مدل قبلی فقط ۲۶.۸٪ موفق بود، ولی LadderSym این رو به ۵۶.۳٪ رسوند! (بیش از دو برابر)
• برای پیدا کردن نت‌های اضافی، از ۷۲.۰٪ به ۸۶.۴٪ رسوند که کلی پیشرفته.
• روی دیتاست دوم هم تقریباً همین مقدار پیشرفت دیدن.

جالبه که این مدل نه فقط برای موسیقی، بلکه می‌تونه الهام‌بخش کارهایی باشه مثل ارزیابی کار ربات‌ها با reinforcement learning (یعنی سبک آموزش با پاداش و تنبیه، چیزی که تو رباتیک و بازی‌های کامپیوتری کاربرد داره)، سنجش مهارت انسان‌ها، یا تست کردن عملکرد مدل‌های دیگه.

خلاصه اگه دنبال یه مدل هوشمند و جدی برای کمک تو تمرین موسیقی هستی، یا حتی دوست داری تو پروژه‌هات از همچین ایده‌هایی استفاده کنی، LadderSym می‌تونه یکی از جذاب‌ترین نمونه‌های امروزی باشه که نشون می‌ده ترکیب چند مدل داده و هماهنگ کردنشون چه نتایج فوق‌العاده‌ای می‌ده.

منبع: +