خب بچهها بیاید یه موضوع خفن رو باهم باز کنیم: “کلون کردن صدا” یا همون Voice Cloning! اصلاً این یعنی چی؟ یعنی ساختن یه صدای جدید که خیلی شبیه صدای یه نفر دیگهست و میتونه باعث شخصیسازی تکنولوژیهای صوتی بشه. ولی یه بدی داره: معمولاً کلی داده و کامپیوتر قوی لازم داره که خب، تو محیطهای کممنبع (یعنی جاهایی که امکانات و پول زیاد توشون نیست، مثلاً مدارس روستایی یا کشورهای در حال توسعه) زیاد گیر نمیاد.
حالا یه تیم اومدن رو این مشکل کار کردن و یه روش ترکیبی ساختن که با کمترین داده و سختافزار ساده هم جواب بده! بذارید ساده بگم چی کار کردن:
۱. اول از یک GE2E-trained speaker encoder استفاده کردن – این یه مدل یادگیری ماشینیه که میتونه خیلی سریع صدای یه آدم رو یاد بگیره. (GE2E یعنی Generalized End-to-End که قراره با داده کم، شخصیت صدای فرد رو بفهمه.)
۲. بعد داشتن تکاترون (Tacotron) که یه مدل دیگهست و متن رو تبدیل به نقشه فرکانسهای صدا (یا همون spectrogram) میکنه. این دقیقاً مثل یه پل بین چیزی که میخوای بگی و صدایی که تولید میشه کار میکنه.
۳. آخر سر هم WaveRNN vocoder با یه سری تغییرات مخصوص گذاشتن روش. Vocoder یعنی یه مدل که از اون نقشه فرکانس، صدای واقعی تولید میکنه. این نسخه حتی بهتر هم شده، چون از GRUها (یعنی یه جور سلول مخصوص شبکه عصبی برای مدل کردن ترتیب زمانی دیتا) و اتصالات میانبُر (Skip Connections) استفاده کرده که سریعتر و دقیقتر کار کنه.
حالا بیاید راجع به چیزی که واقعا کار کرده صحبت کنیم — این سیستم فقط با ۵ تا ۱۰ ثانیه از صدا میتونه خودش رو باهاش سازگار کنه! (یعنی Few-shot adaptation، یعنی با داده کم یاد میگیره.) و تا حد زیادی تقریباً به طور زنده، تو کامپیوترای ساده هم میتونه صدا تولید کنه؛ یعنی لازم نیست یه سوپرکامپیوتر باشه.
برای اینکه مطمئن شن سیستمشون خوب کار میکنه، روی دیتاستهایی مثل LibriSpeech، VCTK و حتی دیتاهای نویزی از یوتیوب امتحانش کردن. به یه سری معیار هم نگاه کردن:
- MCD: نشون میده چقدر صدای ساختگی شبیه صدای اصلیه. اینجا امتیاز 4.8 تا 5.1 گرفتن.
- MOS: همینطور میزان رضایت شنوندهها رو نشون میده. مثلاً برای LibriSpeech امتیاز 4.55 رو گرفتن که از روشهای قبلی که 4.33 بوده بیشتره. حتی تو یوتیوب، 3.82 در مقابل 3.10!
- EER (Equal Error Rate): این هم برای شباهت صدا ـ هست. روی صداهای تستی خارجی، کمتر از ۱۲ درصد بوده که یعنی صدای تقلبی تقریباً خیلی شبیه نمونه اصلی در میاد!
خلاصه اگه بخوام جمعبندی کنم: این سیستم هم با داده کم، هم رو دستگاههای ضعیف میتونه صدای واقعی تولید کنه. برای کلاسهای کمک آموزشی، محیطهای چندزبانه یا جاهایی که دانشآموزا نیاز به دسترسپذیری بیشتری دارن، خیلی به درد بخوره. حتی به چیزایی مثل مسئولیت اجتماعی هم فکر کردن! مثلاً اینکه کاربرا باید راضی باشن از صداشون استفاده شه (بحث رضایت یا Consent). یا اینکه تونستن سیستمهای آبنشانی (Watermarking) و شناسایی بذارن تا جلوی سواستفاده گرفته بشه.
پس اگه یه روزی کسی اومد گفت “چجوری میشه با هزینه کم، برای بچهها تو هر محیطی صداهای واقعی ساخت که انگار واقعاً معلمشون داره صحبت میکنه؟”، جوابش همین روش ترکیبی جدیده که حتی با کمترین امکانات، همه بتونن بهترین آموزش صوتی رو تجربه کنن!
منبع: +