چطور با ترکیب صداها، آموزش رو برای همه راحت‌تر کنیم؟ مخصوصا وقتی منابع کمه!

خب بچه‌ها بیاید یه موضوع خفن رو باهم باز کنیم: “کلون کردن صدا” یا همون Voice Cloning! اصلاً این یعنی چی؟ یعنی ساختن یه صدای جدید که خیلی شبیه صدای یه نفر دیگه‌ست و می‌تونه باعث شخصی‌سازی تکنولوژی‌های صوتی بشه. ولی یه بدی داره: معمولاً کلی داده و کامپیوتر قوی لازم داره که خب، تو محیط‌های کم‌منبع (یعنی جاهایی که امکانات و پول زیاد توشون نیست، مثلاً مدارس روستایی یا کشورهای در حال توسعه) زیاد گیر نمیاد.

حالا یه تیم اومدن رو این مشکل کار کردن و یه روش ترکیبی ساختن که با کمترین داده و سخت‌افزار ساده هم جواب بده! بذارید ساده بگم چی کار کردن:

۱. اول از یک GE2E-trained speaker encoder استفاده کردن – این یه مدل یادگیری ماشینیه که می‌تونه خیلی سریع صدای یه آدم رو یاد بگیره. (GE2E یعنی Generalized End-to-End که قراره با داده کم، شخصیت صدای فرد رو بفهمه.)

۲. بعد داشتن تکاترون (Tacotron) که یه مدل دیگه‌ست و متن رو تبدیل به نقشه فرکانس‌های صدا (یا همون spectrogram) می‌کنه. این دقیقاً مثل یه پل بین چیزی که می‌خوای بگی و صدایی که تولید می‌شه کار می‌کنه.

۳. آخر سر هم WaveRNN vocoder با یه سری تغییرات مخصوص گذاشتن روش. Vocoder یعنی یه مدل که از اون نقشه فرکانس، صدای واقعی تولید می‌کنه. این نسخه حتی بهتر هم شده، چون از GRUها (یعنی یه جور سلول مخصوص شبکه عصبی برای مدل کردن ترتیب زمانی دیتا) و اتصالات میانبُر (Skip Connections) استفاده کرده که سریع‌تر و دقیق‌تر کار کنه.

حالا بیاید راجع به چیزی که واقعا کار کرده صحبت کنیم — این سیستم فقط با ۵ تا ۱۰ ثانیه از صدا می‌تونه خودش رو باهاش سازگار کنه! (یعنی Few-shot adaptation، یعنی با داده کم یاد می‌گیره.) و تا حد زیادی تقریباً به طور زنده، تو کامپیوترای ساده هم می‌تونه صدا تولید کنه؛ یعنی لازم نیست یه سوپرکامپیوتر باشه.

برای اینکه مطمئن شن سیستمشون خوب کار می‌کنه، روی دیتاست‌هایی مثل LibriSpeech، VCTK و حتی دیتاهای نویزی از یوتیوب امتحانش کردن. به یه سری معیار هم نگاه کردن:

MCD: نشون می‌ده چقدر صدای ساختگی شبیه صدای اصلیه. اینجا امتیاز 4.8 تا 5.1 گرفتن.
MOS: همینطور میزان رضایت شنونده‌ها رو نشون می‌ده. مثلاً برای LibriSpeech امتیاز 4.55 رو گرفتن که از روش‌های قبلی که 4.33 بوده بیشتره. حتی تو یوتیوب، 3.82 در مقابل 3.10!
EER (Equal Error Rate): این هم برای شباهت صدا ـ هست. روی صداهای تستی خارجی، کمتر از ۱۲ درصد بوده که یعنی صدای تقلبی تقریباً خیلی شبیه نمونه اصلی در میاد!

خلاصه اگه بخوام جمع‌بندی کنم: این سیستم هم با داده کم، هم رو دستگاه‌های ضعیف می‌تونه صدای واقعی تولید کنه. برای کلاس‌های کمک آموزشی، محیط‌های چندزبانه یا جاهایی که دانش‌آموزا نیاز به دسترس‌پذیری بیشتری دارن، خیلی به درد بخوره. حتی به چیزایی مثل مسئولیت اجتماعی هم فکر کردن! مثلاً اینکه کاربرا باید راضی باشن از صداشون استفاده شه (بحث رضایت یا Consent). یا اینکه تونستن سیستم‌های آب‌نشانی (Watermarking) و شناسایی بذارن تا جلوی سواستفاده گرفته بشه.

پس اگه یه روزی کسی اومد گفت “چجوری میشه با هزینه کم، برای بچه‌ها تو هر محیطی صداهای واقعی ساخت که انگار واقعاً معلمشون داره صحبت می‌کنه؟”، جوابش همین روش ترکیبی جدیده که حتی با کمترین امکانات، همه بتونن بهترین آموزش صوتی رو تجربه کنن!

منبع: +