معرفی لایواتار-۱: نسل جدید ساخت ویدیو آواتار حرف‌زن، به صورت زنده!

بذار برات یه تکنولوژی خفن رو تعریف کنم که همین تازگی‌ها معرفی شده و می‌تونه ویدیوی آواتار یا همون چهره دیجیتالیِ حرف‌زن رو تقریبا به صورت زنده (real-time) از صدای کاربر بسازه. اسمش Livatar-1 هست (لایواتار-یک) و کلی چیز باحال داره که واقعاً شگفت‌زده‌ت می‌کنه!

خب، آواتارهای حرف‌زن، یعنی چی؟ همین‌هایی که توی ویدیو می‌بینی یک آدم دیجیتالی باهات حرف می‌زنه، دقیقاً داره لب می‌زنه و حتی حالت صورتش هم متناسب صدا عوض میشه. اما مشکل اصلی تکنولوژی‌های قبلی این بود که دقت همگام‌سازی لب (Lip-Sync) پایین بود و اگه ویدیو زیاد طول می‌کشید، سر و صورت آواتار کم‌کم از فرم درمیومد یا یه جورایی حرکت‌هایش به هم می‌ریخت (به این میگن pose drift).

تیم لایواتار-۱ اومده با یه ابتکار جدید! اگر بگم flow matching، نترس؛ این یعنی مدل یاد می‌گیره چطور حالت‌های مختلف صورت و حرکات لب رو قشنگ با صدا مچ کنه تا آواتار جون‌دارتر و دقیق‌تر بشه.

حالا نکته باحال‌ش اینه که کیفت همگام‌سازی لب (LipSync Confidence) رو روی یک دیتای معروف به اسم HDTF بررسی کردن و امتیاز ۸.۵۰ رو گرفتن، که واقعاً عالی حساب میشه (عدد بالاتر یعنی دقت بهتر توی سیستمای تولید ویدیوی لب‌زن). حتی این سیستم لایواتار می‌تونه توی هر ثانیه ۱۴۱ فریم ویدیو تولید کنه! یعنی اگر با کارت گرافیک A10 (که جزو مدلای معروف و کارآمده) کار کنی، فقط ۰.۱۷ ثانیه طول می‌کشه هر ورودی به یک خروجی تصویریِ فول کیفیت تبدیل بشه.

کل این کارها یعنی ساختن آواتار با کیفیت و همگام خیلی سریع و واقع‌گرایانه! نکته خوبش اینه که حالا دیگه محدود نیست فقط به یه سری پروژه خاص؛ هر کسی تو اپلیکیشن‌های مختلف هم می‌تونه استفاده کنه—از بازی و محتواسازی بگیر تا پشتیبانی آنلاین و آموزش از راه دور.

خلاصه اگه دوست داری خودت بیشتر ببینی و امتحان کنی، پروژه لایواتار رو روی سایت hedra.com گذاشتن و نمونه ویدیوهاش هم اینجاست: https://h-liu1997.github.io/Livatar-1/

در یک کلام: حالا میشه آواتارهایی ساخت که هم زنده، هم دقیق و هم قابل استفاده تو زمینه‌های مختلف باشن، اونم با سرعت نور!

منبع: +