بذار برات یه تکنولوژی خفن رو تعریف کنم که همین تازگیها معرفی شده و میتونه ویدیوی آواتار یا همون چهره دیجیتالیِ حرفزن رو تقریبا به صورت زنده (real-time) از صدای کاربر بسازه. اسمش Livatar-1 هست (لایواتار-یک) و کلی چیز باحال داره که واقعاً شگفتزدهت میکنه!
خب، آواتارهای حرفزن، یعنی چی؟ همینهایی که توی ویدیو میبینی یک آدم دیجیتالی باهات حرف میزنه، دقیقاً داره لب میزنه و حتی حالت صورتش هم متناسب صدا عوض میشه. اما مشکل اصلی تکنولوژیهای قبلی این بود که دقت همگامسازی لب (Lip-Sync) پایین بود و اگه ویدیو زیاد طول میکشید، سر و صورت آواتار کمکم از فرم درمیومد یا یه جورایی حرکتهایش به هم میریخت (به این میگن pose drift).
تیم لایواتار-۱ اومده با یه ابتکار جدید! اگر بگم flow matching، نترس؛ این یعنی مدل یاد میگیره چطور حالتهای مختلف صورت و حرکات لب رو قشنگ با صدا مچ کنه تا آواتار جوندارتر و دقیقتر بشه.
حالا نکته باحالش اینه که کیفت همگامسازی لب (LipSync Confidence) رو روی یک دیتای معروف به اسم HDTF بررسی کردن و امتیاز ۸.۵۰ رو گرفتن، که واقعاً عالی حساب میشه (عدد بالاتر یعنی دقت بهتر توی سیستمای تولید ویدیوی لبزن). حتی این سیستم لایواتار میتونه توی هر ثانیه ۱۴۱ فریم ویدیو تولید کنه! یعنی اگر با کارت گرافیک A10 (که جزو مدلای معروف و کارآمده) کار کنی، فقط ۰.۱۷ ثانیه طول میکشه هر ورودی به یک خروجی تصویریِ فول کیفیت تبدیل بشه.
کل این کارها یعنی ساختن آواتار با کیفیت و همگام خیلی سریع و واقعگرایانه! نکته خوبش اینه که حالا دیگه محدود نیست فقط به یه سری پروژه خاص؛ هر کسی تو اپلیکیشنهای مختلف هم میتونه استفاده کنه—از بازی و محتواسازی بگیر تا پشتیبانی آنلاین و آموزش از راه دور.
خلاصه اگه دوست داری خودت بیشتر ببینی و امتحان کنی، پروژه لایواتار رو روی سایت hedra.com گذاشتن و نمونه ویدیوهاش هم اینجاست: https://h-liu1997.github.io/Livatar-1/
در یک کلام: حالا میشه آواتارهایی ساخت که هم زنده، هم دقیق و هم قابل استفاده تو زمینههای مختلف باشن، اونم با سرعت نور!
منبع: +