دی‌تاکر: یه چارچوب خفن برای انیمیشن چهره با کنترل سبک صحبت کردن!

اگه از ویدیوهایی خوشت میاد که فقط با یه عکس ثابت و یه فایل صوتی، میشه شکلک زدن و حرف زدن یه نفر رو ساخت، این مقاله حسابی جذابه! دی‌تاکر (DiTalker) اومده تا انیمیشن چهره‌ها رو حسابی دگرگون کنه. میخوای بدونی چطوری؟ بیا باهم یه بررسی کنیم!

تا حالا انیمیشن چهره‌ها بیشتر تمرکزشون روی حرکت لب‌ها یا نهایتاً یه مقدار مدل احساسات ساده بود. ولی چیزی که واقعاً حال میده، اینه که یه مدل بتونه علاوه‌بر لب‌ها، حرکت سر و سبک حرف زدن رو هم کنترل کنه! مثلاً کسی که با هیجان صحبت می‌کنه، سرش رو زیاد تکون می‌ده یا اگه ناراحته، مدل خاصی حرکت می‌کنه.

بعضی روش‌هایی که قبلا داشتن، از تکنیکی به اسم Dual U-Net استفاده می‌کردن. حالا U-Net یعنی یه معماری توی شبکه عصبی (همون سیستم‌هایی که سعی می‌کنن شبیه مغز ما یاد بگیرن) که واسه اینجور کارهای تصویری خیلی جواب میده. ولی مشکلش اینه که خیلی سنگین میشه و سرعتش پایین میاد.

دی‌تاکر یه چارچوب جدید با استفاده از DiT ساخته. این همون Diffusion Transformer ـه که یه جور معماری هوشمندِ پیشرفته برای هوش مصنوعیه و توی تولید تصویر و ویدیو با کیفیت بالا غوغا کرده. توی دی‌تاکر، دیگه خبری از اون Dual U-Net نیست، پس هم سریع‌تره و هم کمتر منابع مصرف می‌کنه!

این مدل دو تا ماژول خیلی مهم داره:

۱. ماژول کدگذاری سبک و احساسات: اینجا مدل دو شاخه داره؛ یکی مخصوص سبک صحبت کردن (مثلاً مدل حرکت سر و ژست و اینا) که میشه بهش گفت Style Branch – و یکی هم مربوط به احساساته که میشه گفت Emotion Branch. نکته جالب اینه که شاخه سبک، اطلاعات مختص اون آدم رو جمع می‌کنه (مثلا هر کسی مدل خاصی سر تکون میده)، ولی شاخه احساسات، جدا از هویت آدم‌ها، فقط حس کلی رو می‌گیره (مثلا ناراحتی یا خوشحالی).

۲. ماژول ترکیب صدا و سبک: این یکی خیلی هوشمنده! با دو لایه attention (یعنی لایه‌هایی که سعی می‌کنن خیلی دقیق روی قسمت مهم هر سیگنال تمرکز کنن)، صدای ورودی رو از سبک صحبت جدا می‌کنه. یعنی مثلاً می‌فهمه چی توی صدا مهمه برای حرکت لب، و چی مهمه برای انرژی یا ژست سر. این باعث میشه کل فرایند ساخت انیمیشن خیلی طبیعی‌تر و کنترل‌پذیرتر بشه.

برای اینکه نتیجه واقعاً خوب باشه، دی‌تاکر دو تا قید بهینه‌سازی جدید رو هم اضافه کرده که:

یه قید مخصوص بهتر شدن همزمانی لب‌ها با صداست (یعنی موقعی که لب داره حرکت می‌کنه، دقیقاً با حرفایی که پخش میشه هماهنگه)
یکی هم مخصوص حفظ جزئیات ظریف صورت و پس‌زمینه‌ست، یعنی تصویر نه فقط شبیه بمونه، بلکه ظاهر آدم و جزئیات محیط هم خوب دربیاد!

نتیجه آزمایشات هم خیلی باحاله: دی‌تاکر توی همگام‌سازی لب‌ها و همچنین کنترل سبک صحبت کردن، حسابی نسبت به روش‌های دیگه سرتره. حالا اگه کنجکاوی کل پروژه چیه یا ویدیوهاشو ببینی، همین الان می‌تونی از سایت پروژه دیدن کنی:
https://thenameishope.github.io/DiTalker/

در کل، اگه دنبال این هستی که یه آدم فقط با یه عکس و یه صدا بتونه یه ویدیو بسازه که حتی مدل حرف‌زدنش رو هم کنترل کنی، دی‌تاکر کاملاً به کارت میاد! به لطف معماری خلاقانه و ایده‌های جدید، این مدل مشخصاً از بقیه جلو زده. خلاصه، دیگه میشه گفت یه انیمیشن چهره خفن که زاویه سر، حرکت صورت و حتی حس و حال حرف زدن رو می‌فهمه و اجرا می‌کنه، دیگه رویاست که تحقق پیدا کرده!

منبع: +