مو‌اسپایک: اولین بستر باحال برای بررسی تولید موسیقی با مغزهای مصنوعی (Spiking Neural Networks)

اگه تا حالا درباره ساخت موسیقی با هوش مصنوعی شنیدی، احتمالاً بیشترش با شبکه‌های عصبی معمولی بوده؛ همونایی که شبیه مغز آدم کار می‌کنن ولی نه خیلی شبیه واقعی! حالا، کاری که تو دنیای Spiking Neural Networks یا همون SNNها تازه شروع شده، داستانش فرق داره. SNNها یه جور شبکه عصبی‌ان که بیشتر به مدل مغز خودمون نزدیکن – یعنی نورون‌ها توش با اسپایک (مثل سیگنال‌های کوچیک برقی که بین نورون‌ها تو مغز رد و بدل می‌شه) با هم حرف می‌زنن. خلاصه از اون مدل‌های خیلی واقع‌گرایانه‌ن!

تا حالا بیشتر تمرکز ساخت موسیقی نمادین (یعنی کاری که به جای صوت، نت و علامت موسیقی تولید می‌شه، مثل فایل‌های MIDI)، روی شبکه‌های عصبی معمولی بوده. ولی SNNها یه عالم جای کار دارن – اما مشکل اینجاست که هیچ معیار یا ارزیابی استاندارد و جامع برای مقایسه مدل‌های مختلفشون وجود نداشت.

اینجا بود که محقق‌ها اومدن سراغ MuSpike یا همون مو‌اسپایک (یه اسم ترکیبی باحال برای این پروژه). مو‌اسپایک چی کار می‌کنه؟

مو‌اسپایک یک بستر جدید و کامل برای بنچمارک یا همون آزمون استاندارد و بررسی جامع مدل‌های SNN برای ساخت موسیقی نمادین راه انداخته. یعنی به جای اینکه هرکسی مدلشو آزمایشی یه جا تست کنه، همه رو تو یه چارچوب منظم با هم می‌سنجه. کلی مدل معروف SNN رو از جمله SNN-CNN (که ترکیب کانولوشن و مدل عصبیه)، SNN-RNN (مدل بازگشتی)، SNN-LSTM (مدل یادگیری بلندمدت)، SNN-GAN (ترکیب با مدل تولیدی تقابلی) و SNN-Transformer (اون مدل معروف تو جهان هوش مصنوعی!) روی پنج تا دیتاست متنوع و جالب تست کرده. این دیتاست‌ها قسمت‌های مختلف موسیقی مثل «ملودی تونال»، «ساختار»، «احساسات» و «سبک‌ها» رو پوشش می‌دن.

یه نکته مهم تو مو‌اسپایک اینه که فقط به عدد و رقم (آمار و معیارهای ریاضی‌ای که معمولاً قبلاً استفاده می‌شدن) اکتفا نکردن. به جای اون، اومدن یه مطالعه بزرگ گوش‌دادن هم گذاشتن، یعنی به آدم‌ها (هم موسیقیدان، هم آدمای عادی) آهنگ‌های تولیدی رو دادن و نظرشونو پرسیدن. اینو اصطلاحاً Subjective Metrics یا معیارهای ذهنی می‌گن – یعنی معیارهایی که براساس حس و سلیقه آدم‌هاس، مثل اینکه آهنگ چقدر تو ذهنت می‌مونه یا یاد خاطره‌ای می‌افتی یا اصلاً خوشت میاد یا نه.

نتایجی که گرفتن خیلی جالب بود:

هرکدوم از مدلای SNN یه نقطه قوت خاص داشتن، یعنی هیچکدوم بهترین نبودن تو همه زمینه‌ها.
افرادی که سابقه موسیقی داشتن، نسبت به موسیقی ساخته‌شده با هوش مصنوعی (AI) راحت‌تر بودن و کمتر ایراد می‌گرفتن. یعنی یه جورایی حرفه‌ای‌ها بیشتر می‌تونستن با این مدل موسیقی کنار بیان.
تفاوت اساسی بین نتیجه‌های آماری (Objective Metrics) و نظر آدما وجود داشت، و نشون داد فقط با معیارهای عددی نمی‌شه کیفیت موسیقی رو درست سنجید. قشنگ معلومه برای نتیجه‌گیری درباره کیفیت موسیقی، نظر آدم‌ها خیلی مهمه!

خلاصه، مو‌اسپایک اولین چارچوب منظم و کامل واسه بررسی مدل‌های SNN تو تولید موسیقی نمادین رو درست کرده و واقعاً مسیر تحقیقات آینده رو باز می‌کنه تا موسیقی‌هایی بسازن که هم علمی‌تر و هم نزدیک‌تر به مغز و احساس آدم باشه. اگه دنبال راهی بودی واسه ترکیب هوش مصنوعی و احساس، مو‌اسپایک می‌تونه جالب‌ترین نقطه شروع باشه!

منبع: +