خب بذارین یه داستان باحال از تجربه خودم با آواتارهای هوش مصنوعی Synthesia براتون تعریف کنم. تصور کنین رفتین یه دفتر خیلی شیک تو لندن، نور همهجا، وسایل فیلمبرداری و یه تُرک دوربین و لپتاپ جلوتونه و شما هم واسه اولین بار جلوی اون میایستید تا یه آواتار دیجیتالی فوق واقعی از خودتون بسازن. این سناریو رو من به عینه تجربه کردم و میخوام همه جاش رو براتون توضیح بدم!
برای اینکه بدونید Synthesia چیه: این یه شرکت هوش مصنوعیه که از سال ۲۰۱۷ شروع کرد و اول کلیپهایی میساخت که مثلاً فوتبالباز معروف “دیوید بکهام” رو با دوبله به زبونهای مختلف نشون میداد (دقیقاً: لب و حرکت صورتش با صحبت تو زبونای مختلف یکی درمیومد!). تکنولوژیشون کمکم پیشرفت کرد و رسید به جایی که شرکتها میتونستن ارائههای حرفهای بسازن و چهرهی افراد واقعی یا بازیگرها تو ویدیوشون داشته باشن. اما خب، اوایل آواتارها خیلی مصنوعی بودن؛ حرکت بدنشون عجیب و غریب بود، لهجهها رو خراب میکردن و صداشون احساسات درست منتقل نمیکرد.
حالا Synthesia دیگه آواتاراش حسابی طبیعیتر و واقعاً شبیه آدمها شده. حرکت دست و صورتشون بهتره، صداشون احساس داره و حتی لهجه شما رو هم حفظ میکنه. شرکتا کلی ذوق دارن که از این آواتارها به عنوان مجری برای گزارشهای مالی یا آموزش پرسنل استفاده کنن؛ همه چیز خیلی شیک و اکتیو شده!
تجربه ساخت آواتار: سال پیش یکی از همکارام رفته بود برای ساخت آواتار از خودش تو استودیوی شرکت. باید حسابی اسکریپت رو با حالتهای حسی مختلف میخوند تا آواتارش خوب دربیاد. ولی امسال که من رفتم، دیگه کار راحتتر شده بود. مسئول فنی Synthesia بهم گفت عادی باشم، دستام رو حرکت بدم، اما نه زیاد! و فقط باید یه متن خیلی خوشحال و مثبت میخوندم. (انقدر فضا پرشور بود که حس استیو جابز بهم دست داده بود 😂)
همین که ویدیو رو گرفتن، بعد تقریباً دو هفته بهم دو مدل آواتار دادن: یکی با مدل قدیمی (Express-1)، یکی با مدل جدید (Express-2). تفاوتشون؟ آواتار جدیدتر، حرکات طبیعیتر، صورت مشابهتر و صداش عین خودم! ولی هنوزم اگه دقیق نگاه کنین، میفهمید هوش مصنوعیه؛ کف دستم صورتی براق و مصنوعی بود، موهام آخری حرکت نمیکرد و چشمامو خیلی کم پلک میزد! اما با این حال، مثلاً اگه من رو نشناسین، شاید فکر کنین واقعاً خودمم.
حتی یه پژوهشگر روانشناسی از دانشگاه Humboldt (آلمان) که روی واکنش آدما به چهرههای دیپفیک کار میکنه گفت شاید در نگاه اول متوجه نشه این یه آواتار مجازیه، اما یه جور حالت خالی و بیروح توش حس میشه؛ مثل اینکه بدونی پشتش اصلاً کسی نیست و هیچ حسی واقعاً منتقل نمیشه.
نکته فنی داستان: الان چالش اصلی این نیست که فقط چهره آدم بازسازی بشه؛ بلکه باید رفتار، حرکت، لحن، ژست و حتی ریزترین حالتهای صورت و صدا هم شبیه همون آدم باشه. سیستم جدید Synthesia از مدلهای پیچیدهای برای شبیهسازی حرکات و صداها استفاده میکنه. مثلاً Voice Cloning یعنی مدل صداسازی که دقیقاً لحن و لهجهی آدمها رو حفظ میکنه (نه مثل مدلهای قبلی که همه رو آمریکایی میکرد!). سیستم به کمک مدلهای ژست و ویدیویی (مثلاً مدل Diffusion یعنی الگوریتمی که تصویر یا ویدیوهای با جزئیات از ورودی تولید میکنه) حرکت بدن و حالت چهره رو متناسب با صدام اضافه میکنه.
از لحاظ قدرت، مدل رندر نسخه دوم (Express-2) میلیاردها پارامتر داره! پارامتر یعنی اون تیکهکدهایی که هوش مصنوعی باهاش یاد میگیره و تصمیم میگیره چی تولید کنه. هر چی این بیشتر باشه یعنی مدل هوشمندتر و سریعتر میشه، دیگه لازم نیست کلی تمرین کنه تا حالتهای حسی شما رو بفهمه.
داستان هنوز اینجاست تموم نمیشه! کلی شرکت دیگه مثل Yuzu Labs، Creatify، Arcads و Vidyard هم دارن میرن به سمت ساخت آواتارهای هوش مصنوعی واسه تبلیغات، آموزش یا معرفی محصول که همه چی رو ارزونتر و سریعتر و البته جذابتر میکنه. حتی تو چین هم آواتار استریمری که میتونه شبانهروز تبلیغ و فروش کنه، بدون خستگی حسابی پر استقبال شده!
Synthesia فعلاً تمرکزش رو شرکتهاست ولی داره میره به سمت کارای جذاب دیگه. مثلاً با همکاری گوگل، مدل ویدیویی جدید Veo 3 توی پلتفرمش اومده، یعنی میشه کنار آواتار، هر کلیپ دلخواهی ساخت و تو کلیپ به کار برد (مثلاً آموزش کار با یه دستگاه صنعتی).
و آینده چیه؟ قراره این آواتارها تعاملی بشن؛ یعنی بتونی باهاش حرف بزنی و مثل ChatGPT اما با چهره و حرکات واقعی جواب بگیری! بعضیا الان تو سیستم آموزش آنلاین شبیهسازی کردن که کاربر وسط آموزش بتونه از آواتار سوال کنه یا بخواد یه موضوع رو بیشتر توضیح بده. این یعنی آیندهی آموزش آنلاین شخصیسازی شده، تعاملی و خیلی جالبتر میشه.
یه بحث مهم این وسط هست: آیا ممکنه آدما به این آواتارهای هوشمند وابسته یا حتی معتاد بشن؟ مثلاً کسانی هستن که با چتباتها (مثلاً رباتهای متنی هوش مصنوعی که مثل دوست یا همراه میشن) رابطه عاطفی پیدا کردن، حالا با وجود آواتارهایی با قیافه و لحن واقعیتر این موضوع خیلی جدیتر میشه. احتمالاً تعامل آدما با این آواتارها خیلی بیشتر و پیچیدهتر از رابطشون با همدیگه بشه. یه استاد MIT گفته: اگه یه آواتار خیلی طبیعی باشه، خیلیها ممکنه بعنوان همدم، دوست یا حتی بیشتر بهش وابسته بشن، و ما دیدهایم حتی این سیستمها روی رفتار کاربرا تاثیر خطرناک میذارن.
خب ته داستان؟ شاید یه روز نزدیک باشه که آواتارهای شبیه خودت باهات چت کنن و جواب بدن، موقع آموزش یا حتی اجرا! پس اگه روزی تو جمع فامیلی یه نفر با صدای خیلی مصمم به بهونه شوخی گفت “اد شیران بهترین خواننده دنیاست”، بدونین شاید خودش نبوده، بلکه آواتار AI بوده! 😄
منبع: +