آواتارهای هوش مصنوعی Synthesia: نه تنها واقعی‌تر شدن، بلکه قراره باهات حرف بزنن!

خب بذارین یه داستان باحال از تجربه خودم با آواتارهای هوش مصنوعی Synthesia براتون تعریف کنم. تصور کنین رفتین یه دفتر خیلی شیک تو لندن، نور همه‌جا، وسایل فیلمبرداری و یه تُرک دوربین و لپ‌تاپ جلوتونه و شما هم واسه اولین بار جلوی اون میایستید تا یه آواتار دیجیتالی فوق واقعی از خودتون بسازن. این سناریو رو من به عینه تجربه کردم و میخوام همه جاش رو براتون توضیح بدم!

برای اینکه بدونید Synthesia چیه: این یه شرکت هوش مصنوعیه که از سال ۲۰۱۷ شروع کرد و اول کلیپ‌هایی می‌ساخت که مثلاً فوتبال‌باز معروف “دیوید بکهام” رو با دوبله به زبون‌های مختلف نشون میداد (دقیقاً: لب و حرکت صورتش با صحبت تو زبونای مختلف یکی درمیومد!). تکنولوژی‌شون کم‌کم پیشرفت کرد و رسید به جایی که شرکت‌ها می‌تونستن ارائه‌های حرفه‌ای بسازن و چهره‌ی افراد واقعی یا بازیگرها تو ویدیوشون داشته باشن. اما خب، اوایل آواتارها خیلی مصنوعی بودن؛ حرکت بدنشون عجیب و غریب بود، لهجه‌ها رو خراب می‌کردن و صداشون احساسات درست منتقل نمی‌کرد.

حالا Synthesia دیگه آواتاراش حسابی طبیعی‌تر و واقعاً شبیه آدم‌ها شده. حرکت دست و صورت‌شون بهتره، صداشون احساس داره و حتی لهجه شما رو هم حفظ می‌کنه. شرکتا کلی ذوق دارن که از این آواتارها به عنوان مجری برای گزارش‌های مالی یا آموزش پرسنل استفاده کنن؛ همه چیز خیلی شیک و اکتیو شده!

تجربه ساخت آواتار: سال پیش یکی از همکارام رفته بود برای ساخت آواتار از خودش تو استودیوی شرکت. باید حسابی اسکریپت رو با حالت‌های حسی مختلف میخوند تا آواتارش خوب دربیاد. ولی امسال که من رفتم، دیگه کار راحت‌تر شده بود. مسئول فنی Synthesia بهم گفت عادی باشم، دستام رو حرکت بدم، اما نه زیاد! و فقط باید یه متن خیلی خوشحال و مثبت میخوندم. (انقدر فضا پرشور بود که حس استیو جابز بهم دست داده بود 😂)

همین که ویدیو رو گرفتن، بعد تقریباً دو هفته بهم دو مدل آواتار دادن: یکی با مدل قدیمی (Express-1)، یکی با مدل جدید (Express-2). تفاوتشون؟ آواتار جدیدتر، حرکات طبیعی‌تر، صورت مشابه‌تر و صداش عین خودم! ولی هنوزم اگه دقیق نگاه کنین، می‌فهمید هوش مصنوعیه؛ کف دستم صورتی براق و مصنوعی بود، موهام آخری حرکت نمی‌کرد و چشمامو خیلی کم پلک می‌زد! اما با این حال، مثلاً اگه من رو نشناسین، شاید فکر کنین واقعاً خودمم.

حتی یه پژوهشگر روانشناسی از دانشگاه Humboldt (آلمان) که روی واکنش آدما به چهره‌های دیپ‌فیک کار می‌کنه گفت شاید در نگاه اول متوجه نشه این یه آواتار مجازیه، اما یه جور حالت خالی و بی‌روح توش حس میشه؛ مثل اینکه بدونی پشتش اصلاً کسی نیست و هیچ حسی واقعاً منتقل نمیشه.

نکته فنی داستان: الان چالش اصلی این نیست که فقط چهره آدم بازسازی بشه؛ بلکه باید رفتار، حرکت، لحن، ژست و حتی ریزترین حالت‌های صورت و صدا هم شبیه همون آدم باشه. سیستم جدید Synthesia از مدل‌های پیچیده‌ای برای شبیه‌سازی حرکات و صداها استفاده می‌کنه. مثلاً Voice Cloning یعنی مدل صداسازی که دقیقاً لحن و لهجه‌ی آدم‌ها رو حفظ می‌کنه (نه مثل مدل‌های قبلی که همه رو آمریکایی می‌کرد!). سیستم به کمک مدل‌های ژست و ویدیویی (مثلاً مدل Diffusion یعنی الگوریتمی که تصویر یا ویدیوهای با جزئیات از ورودی تولید میکنه) حرکت بدن و حالت چهره رو متناسب با صدام اضافه می‌کنه.

از لحاظ قدرت، مدل رندر نسخه دوم (Express-2) میلیاردها پارامتر داره! پارامتر یعنی اون تیکه‌کدهایی که هوش مصنوعی باهاش یاد می‌گیره و تصمیم می‌گیره چی تولید کنه. هر چی این بیشتر باشه یعنی مدل هوشمندتر و سریع‌تر میشه، دیگه لازم نیست کلی تمرین کنه تا حالت‌های حسی شما رو بفهمه.

داستان هنوز اینجاست تموم نمیشه! کلی شرکت دیگه مثل Yuzu Labs، Creatify، Arcads و Vidyard هم دارن می‌رن به سمت ساخت آواتارهای هوش مصنوعی واسه تبلیغات، آموزش یا معرفی محصول که همه چی رو ارزون‌تر و سریع‌تر و البته جذاب‌تر می‌کنه. حتی تو چین هم آواتار استریمری که می‌تونه شبانه‌روز تبلیغ و فروش کنه، بدون خستگی حسابی پر استقبال شده!

Synthesia فعلاً تمرکزش رو شرکت‌هاست ولی داره میره به سمت کارای جذاب دیگه. مثلاً با همکاری گوگل، مدل ویدیویی جدید Veo 3 توی پلتفرمش اومده، یعنی میشه کنار آواتار، هر کلیپ دلخواهی ساخت و تو کلیپ به کار برد (مثلاً آموزش کار با یه دستگاه صنعتی).

و آینده چیه؟ قراره این آواتارها تعاملی بشن؛ یعنی بتونی باهاش حرف بزنی و مثل ChatGPT اما با چهره و حرکات واقعی جواب بگیری! بعضیا الان تو سیستم آموزش آنلاین شبیه‌سازی کردن که کاربر وسط آموزش بتونه از آواتار سوال کنه یا بخواد یه موضوع رو بیشتر توضیح بده. این یعنی آینده‌ی آموزش آنلاین شخصی‌سازی شده، تعاملی و خیلی جالب‌تر میشه.

یه بحث مهم این وسط هست: آیا ممکنه آدما به این آواتارهای هوشمند وابسته یا حتی معتاد بشن؟ مثلاً کسانی هستن که با چت‌بات‌ها (مثلاً ربات‌های متنی هوش مصنوعی که مثل دوست یا همراه میشن) رابطه عاطفی پیدا کردن، حالا با وجود آواتارهایی با قیافه و لحن واقعی‌تر این موضوع خیلی جدی‌تر میشه. احتمالاً تعامل آدما با این آواتارها خیلی بیشتر و پیچیده‌تر از رابطشون با همدیگه بشه. یه استاد MIT گفته: اگه یه آواتار خیلی طبیعی باشه، خیلی‌ها ممکنه بعنوان همدم، دوست یا حتی بیشتر بهش وابسته بشن، و ما دیده‌ایم حتی این سیستم‌ها روی رفتار کاربرا تاثیر خطرناک میذارن.

خب ته داستان؟ شاید یه روز نزدیک باشه که آواتارهای شبیه خودت باهات چت کنن و جواب بدن، موقع آموزش یا حتی اجرا! پس اگه روزی تو جمع فامیلی یه نفر با صدای خیلی مصمم به بهونه شوخی گفت “اد شیران بهترین خواننده دنیاست”، بدونین شاید خودش نبوده، بلکه آواتار AI بوده! 😄

منبع: +