زایفرا از نسخهٔ بتای Zonos-v0.1، یک مدل پیشرفتهٔ تبدیل متن به گفتار، پردهبرداری کرده است. این فناوری جدید توانایی تولید گفتاری طبیعی و باکیفیت را دارد. زونوس شامل دو مدل بلادرنگ است که با ۲۰۰,۰۰۰ ساعت دادهٔ گفتاری چندزبانه آموزش دیدهاند. این مدل امکان ترکیب گفتار طبیعی را با کنترل دقیق بر زیر و بم، سرعت و احساسات فراهم میکند. Zonos-v0.1 که بهصورت متنباز عرضه شده، نقطه عطفی در فناوری تبدیل متن به گفتار پیشرفته محسوب میشود.
Zonos-v0.1 زایفرا: استاندارد جدیدی برای تبدیل متن به گفتار رسا
فناوری تبدیل متن به گفتار (TTS) در سالهای اخیر پیشرفتهای چشمگیری داشته است. با این حال، ایجاد گفتاری کاملاً طبیعی و رسا همچنان چالشبرانگیز است. بسیاری از سیستمهای فعلی در ثبت ظرافتهای گفتار انسان مشکل دارند. این ظرافتها شامل لحن، احساسات و ریتم طبیعی گفتار میشوند. همچنین، شبیهسازی دقیق صدا دشوار است و توانایی تکرار صداها با دادههای کم محدود میباشد.
زایفرا برای مقابله با این چالشها، نسخهٔ بتای Zonos-v0.1 را معرفی کرده است. این مدل TTS پیشرفته برای ارائهٔ گفتار بلادرنگ باکیفیت و قابلیت شبیهسازی صدا طراحی شده است. این نسخه شامل دو مدل است: یک مدل ترانسفورمر ۱.۶ میلیارد پارامتری و یک مدل هیبریدی با اندازهٔ مشابه. هر دو مدل تحت مجوز متنباز Apache 2.0 قابل دسترسی هستند.
تولید گفتار با کیفیت بالا
Zonos-v0.1 با حدود ۲۰۰,۰۰۰ ساعت دادهٔ گفتاری آموزش دیده است. این دادهها شامل چندین زبان از جمله انگلیسی، چینی، ژاپنی، فرانسوی، اسپانیایی و آلمانی هستند. این آموزش چندزبانه امکان استفادههای گستردهتر، فراتر از کاربردهای انگلیسی را فراهم میکند.
این مدلها با استفاده از جاسازیهای گوینده یا پیشوندهای صوتی، گفتار واقعگرایانه تولید میکنند. این ویژگی امکان تنظیم دقیق خروجی را برای تطابق با ویژگیهای خاص گوینده فراهم میکند. شبیهسازی صدا را میتوان تنها با ۵ تا ۳۰ ثانیه نمونهٔ گفتار انجام داد. این روش، تکرار صداها را بسیار کارآمد میکند. این سیستم همچنین امکان کنترل پارامترهای کلیدی زیر را فراهم میکند:
- سرعت صحبت کردن و تنوع زیر و بم
- بهبود کیفیت صدا
- احساسات مانند غم، ترس، عصبانیت، شادی و تعجب
با نرخ نمونهبرداری ۴۴ کیلوهرتز، صدای تولید شده بسیار واضح و طبیعی است.
ویژگیهای کلیدی Zonos-v0.1
نسخهٔ بتا ویژگیهای نوآورانهای دارد که قابلیت استفاده و عملکرد آن را افزایش میدهد:
- TTS بدون آموزش قبلی با شبیهسازی صدا: تولید گفتار با استفاده از یک نمونهٔ کوتاه از صدای گوینده همراه با متن ورودی.
- ورودیهای پیشوند صوتی: بهبود تطابق گوینده با ترکیب یک پیشوند صوتی. این ویژگی امکان ایجاد سبکهای صحبت منحصر به فرد مانند زمزمه کردن را فراهم میکند.
- پشتیبانی چندزبانه: امکان تولید گفتار به چندین زبان و افزایش قابلیت استفادهٔ جهانی.
- کنترل احساسات و صدا: تنظیم دقیق زیر و بم، فرکانس و لحن احساسی برای تولید گفتار پویا.
- عملکرد کارآمد: اجرا با سرعتی تقریباً دو برابر سرعت بلادرنگ روی یک پردازندهٔ گرافیکی RTX 4090. این ویژگی آن را برای کاربردهای بلادرنگ مناسب میکند.
- رابط کاربری وب کاربرپسند: رابط کاربری وب مبتنی بر Gradio که تولید گفتار را برای توسعهدهندگان و پژوهشگران آسان میکند.
- استقرار آسان: مدلها را میتوان به سرعت با استفاده از Docker برای ادغام در گردشهای کاری موجود مستقر کرد.
عملکرد رقابتی در برابر مدلهای TTS پیشرو
ارزیابیهای اولیه نشان میدهد که Zonos-v0.1 کیفیتی برابر یا بهتر از مدلهای اختصاصی پیشرو مانند ElevenLabs و Cartesia ارائه میدهد. همچنین با جایگزینهای متنباز مانند FishSpeech-v1.5 رقابت میکند.
مدل هیبریدی، بهویژه، تأخیر و مصرف حافظهٔ کمتری نسبت به مدل ترانسفورمر دارد. این کارایی به معماری مبتنی بر Mamba2 نسبت داده میشود که وابستگی به مکانیسمهای توجه را کاهش میدهد. این ویژگی آن را به گزینهای مناسب برای کاربردهای بلادرنگ تبدیل میکند.
گامی به جلو در توسعهٔ TTS متنباز
زایفرا با انتشار Zonos-v0.1 تحت مجوز متنباز، ابزاری قدرتمند در اختیار پژوهشگران و توسعهدهندگان قرار داده است تا مرزهای کاربردهای TTS را گسترش دهند. ترکیب شبیهسازی صدای باکیفیت، پشتیبانی چندزبانه و کنترل دقیق صدا، آن را به منبعی ارزشمند برای صنایعی مانند موارد زیر تبدیل میکند:
- ایجاد محتوا (صداگذاری، کتابهای صوتی و دستیارهای مجازی)
- ابزارهای دسترسی (تولید گفتار برای کاربران کمبینا)
- بازی و رسانههای تعاملی (صداهای پویای شخصیتها)
نسخهٔ بتا گامی مهم در عمومیسازی دسترسی به فناوری پیشرفتهٔ تولید گفتار است و امکانات جدیدی را برای نوآوری در این زمینه ایجاد میکند.
برای اطلاعات بیشتر، به مخزن گیتهاب زونوس مراجعه کنید.
اگر به خواندن کامل این مطلب علاقهمندید، روی لینک مقابل کلیک کنید: marktechpost