زایفرا از زونوس رونمایی کرد: جهشی در تبدیل متن به گفتار پیشرفته

زایفرا از نسخهٔ بتای Zonos-v0.1، یک مدل پیشرفتهٔ تبدیل متن به گفتار، پرده‌برداری کرده است. این فناوری جدید توانایی تولید گفتاری طبیعی و باکیفیت را دارد. زونوس شامل دو مدل بلادرنگ است که با ۲۰۰,۰۰۰ ساعت دادهٔ گفتاری چندزبانه آموزش دیده‌اند. این مدل امکان ترکیب گفتار طبیعی را با کنترل دقیق بر زیر و بم، سرعت و احساسات فراهم می‌کند. Zonos-v0.1 که به‌صورت متن‌باز عرضه شده، نقطه عطفی در فناوری تبدیل متن به گفتار پیشرفته محسوب می‌شود.

Zonos-v0.1 زایفرا: استاندارد جدیدی برای تبدیل متن به گفتار رسا

فناوری تبدیل متن به گفتار (TTS) در سال‌های اخیر پیشرفت‌های چشمگیری داشته است. با این حال، ایجاد گفتاری کاملاً طبیعی و رسا همچنان چالش‌برانگیز است. بسیاری از سیستم‌های فعلی در ثبت ظرافت‌های گفتار انسان مشکل دارند. این ظرافت‌ها شامل لحن، احساسات و ریتم طبیعی گفتار می‌شوند. همچنین، شبیه‌سازی دقیق صدا دشوار است و توانایی تکرار صداها با داده‌های کم محدود می‌باشد.

زایفرا برای مقابله با این چالش‌ها، نسخهٔ بتای Zonos-v0.1 را معرفی کرده است. این مدل TTS پیشرفته برای ارائهٔ گفتار بلادرنگ باکیفیت و قابلیت شبیه‌سازی صدا طراحی شده است. این نسخه شامل دو مدل است: یک مدل ترانسفورمر ۱.۶ میلیارد پارامتری و یک مدل هیبریدی با اندازهٔ مشابه. هر دو مدل تحت مجوز متن‌باز Apache 2.0 قابل دسترسی هستند.

تولید گفتار با کیفیت بالا

Zonos-v0.1 با حدود ۲۰۰,۰۰۰ ساعت دادهٔ گفتاری آموزش دیده است. این داده‌ها شامل چندین زبان از جمله انگلیسی، چینی، ژاپنی، فرانسوی، اسپانیایی و آلمانی هستند. این آموزش چندزبانه امکان استفاده‌های گسترده‌تر، فراتر از کاربردهای انگلیسی را فراهم می‌کند.

این مدل‌ها با استفاده از جاسازی‌های گوینده یا پیشوندهای صوتی، گفتار واقع‌گرایانه تولید می‌کنند. این ویژگی امکان تنظیم دقیق خروجی را برای تطابق با ویژگی‌های خاص گوینده فراهم می‌کند. شبیه‌سازی صدا را می‌توان تنها با ۵ تا ۳۰ ثانیه نمونهٔ گفتار انجام داد. این روش، تکرار صداها را بسیار کارآمد می‌کند. این سیستم همچنین امکان کنترل پارامترهای کلیدی زیر را فراهم می‌کند:

سرعت صحبت کردن و تنوع زیر و بم
بهبود کیفیت صدا
احساسات مانند غم، ترس، عصبانیت، شادی و تعجب

با نرخ نمونه‌برداری ۴۴ کیلوهرتز، صدای تولید شده بسیار واضح و طبیعی است.

ویژگی‌های کلیدی Zonos-v0.1

نسخهٔ بتا ویژگی‌های نوآورانه‌ای دارد که قابلیت استفاده و عملکرد آن را افزایش می‌دهد:

TTS بدون آموزش قبلی با شبیه‌سازی صدا: تولید گفتار با استفاده از یک نمونهٔ کوتاه از صدای گوینده همراه با متن ورودی.
ورودی‌های پیشوند صوتی: بهبود تطابق گوینده با ترکیب یک پیشوند صوتی. این ویژگی امکان ایجاد سبک‌های صحبت منحصر به فرد مانند زمزمه کردن را فراهم می‌کند.
پشتیبانی چندزبانه: امکان تولید گفتار به چندین زبان و افزایش قابلیت استفادهٔ جهانی.
کنترل احساسات و صدا: تنظیم دقیق زیر و بم، فرکانس و لحن احساسی برای تولید گفتار پویا.
عملکرد کارآمد: اجرا با سرعتی تقریباً دو برابر سرعت بلادرنگ روی یک پردازندهٔ گرافیکی RTX 4090. این ویژگی آن را برای کاربردهای بلادرنگ مناسب می‌کند.
رابط کاربری وب کاربرپسند: رابط کاربری وب مبتنی بر Gradio که تولید گفتار را برای توسعه‌دهندگان و پژوهشگران آسان می‌کند.
استقرار آسان: مدل‌ها را می‌توان به سرعت با استفاده از Docker برای ادغام در گردش‌های کاری موجود مستقر کرد.

عملکرد رقابتی در برابر مدل‌های TTS پیشرو

ارزیابی‌های اولیه نشان می‌دهد که Zonos-v0.1 کیفیتی برابر یا بهتر از مدل‌های اختصاصی پیشرو مانند ElevenLabs و Cartesia ارائه می‌دهد. همچنین با جایگزین‌های متن‌باز مانند FishSpeech-v1.5 رقابت می‌کند.

مدل هیبریدی، به‌ویژه، تأخیر و مصرف حافظهٔ کمتری نسبت به مدل ترانسفورمر دارد. این کارایی به معماری مبتنی بر Mamba2 نسبت داده می‌شود که وابستگی به مکانیسم‌های توجه را کاهش می‌دهد. این ویژگی آن را به گزینه‌ای مناسب برای کاربردهای بلادرنگ تبدیل می‌کند.

گامی به جلو در توسعهٔ TTS متن‌باز

زایفرا با انتشار Zonos-v0.1 تحت مجوز متن‌باز، ابزاری قدرتمند در اختیار پژوهشگران و توسعه‌دهندگان قرار داده است تا مرزهای کاربردهای TTS را گسترش دهند. ترکیب شبیه‌سازی صدای باکیفیت، پشتیبانی چندزبانه و کنترل دقیق صدا، آن را به منبعی ارزشمند برای صنایعی مانند موارد زیر تبدیل می‌کند: