اگه از ویدیوهایی خوشت میاد که فقط با یه عکس ثابت و یه فایل صوتی، میشه شکلک زدن و حرف زدن یه نفر رو ساخت، این مقاله حسابی جذابه! دیتاکر (DiTalker) اومده تا انیمیشن چهرهها رو حسابی دگرگون کنه. میخوای بدونی چطوری؟ بیا باهم یه بررسی کنیم!
تا حالا انیمیشن چهرهها بیشتر تمرکزشون روی حرکت لبها یا نهایتاً یه مقدار مدل احساسات ساده بود. ولی چیزی که واقعاً حال میده، اینه که یه مدل بتونه علاوهبر لبها، حرکت سر و سبک حرف زدن رو هم کنترل کنه! مثلاً کسی که با هیجان صحبت میکنه، سرش رو زیاد تکون میده یا اگه ناراحته، مدل خاصی حرکت میکنه.
بعضی روشهایی که قبلا داشتن، از تکنیکی به اسم Dual U-Net استفاده میکردن. حالا U-Net یعنی یه معماری توی شبکه عصبی (همون سیستمهایی که سعی میکنن شبیه مغز ما یاد بگیرن) که واسه اینجور کارهای تصویری خیلی جواب میده. ولی مشکلش اینه که خیلی سنگین میشه و سرعتش پایین میاد.
دیتاکر یه چارچوب جدید با استفاده از DiT ساخته. این همون Diffusion Transformer ـه که یه جور معماری هوشمندِ پیشرفته برای هوش مصنوعیه و توی تولید تصویر و ویدیو با کیفیت بالا غوغا کرده. توی دیتاکر، دیگه خبری از اون Dual U-Net نیست، پس هم سریعتره و هم کمتر منابع مصرف میکنه!
این مدل دو تا ماژول خیلی مهم داره:
۱. ماژول کدگذاری سبک و احساسات: اینجا مدل دو شاخه داره؛ یکی مخصوص سبک صحبت کردن (مثلاً مدل حرکت سر و ژست و اینا) که میشه بهش گفت Style Branch – و یکی هم مربوط به احساساته که میشه گفت Emotion Branch. نکته جالب اینه که شاخه سبک، اطلاعات مختص اون آدم رو جمع میکنه (مثلا هر کسی مدل خاصی سر تکون میده)، ولی شاخه احساسات، جدا از هویت آدمها، فقط حس کلی رو میگیره (مثلا ناراحتی یا خوشحالی).
۲. ماژول ترکیب صدا و سبک: این یکی خیلی هوشمنده! با دو لایه attention (یعنی لایههایی که سعی میکنن خیلی دقیق روی قسمت مهم هر سیگنال تمرکز کنن)، صدای ورودی رو از سبک صحبت جدا میکنه. یعنی مثلاً میفهمه چی توی صدا مهمه برای حرکت لب، و چی مهمه برای انرژی یا ژست سر. این باعث میشه کل فرایند ساخت انیمیشن خیلی طبیعیتر و کنترلپذیرتر بشه.
برای اینکه نتیجه واقعاً خوب باشه، دیتاکر دو تا قید بهینهسازی جدید رو هم اضافه کرده که:
- یه قید مخصوص بهتر شدن همزمانی لبها با صداست (یعنی موقعی که لب داره حرکت میکنه، دقیقاً با حرفایی که پخش میشه هماهنگه)
- یکی هم مخصوص حفظ جزئیات ظریف صورت و پسزمینهست، یعنی تصویر نه فقط شبیه بمونه، بلکه ظاهر آدم و جزئیات محیط هم خوب دربیاد!
نتیجه آزمایشات هم خیلی باحاله: دیتاکر توی همگامسازی لبها و همچنین کنترل سبک صحبت کردن، حسابی نسبت به روشهای دیگه سرتره. حالا اگه کنجکاوی کل پروژه چیه یا ویدیوهاشو ببینی، همین الان میتونی از سایت پروژه دیدن کنی:
https://thenameishope.github.io/DiTalker/
در کل، اگه دنبال این هستی که یه آدم فقط با یه عکس و یه صدا بتونه یه ویدیو بسازه که حتی مدل حرفزدنش رو هم کنترل کنی، دیتاکر کاملاً به کارت میاد! به لطف معماری خلاقانه و ایدههای جدید، این مدل مشخصاً از بقیه جلو زده. خلاصه، دیگه میشه گفت یه انیمیشن چهره خفن که زاویه سر، حرکت صورت و حتی حس و حال حرف زدن رو میفهمه و اجرا میکنه، دیگه رویاست که تحقق پیدا کرده!
منبع: +