خب، بیا یه نگاه بندازیم به دنیای عجیب و غریب تولید ویدیو با هوش مصنوعی — همونی که حسابی سر و صدا کرده و دنیای تکنولوژی رو برده یه مرحله بالاتر! تازگیا ابزارهای مثل Sora از OpenAI (که خودشه یه غول داستانه)، Veo 3 از Google DeepMind و Gen-4 از Runway کاری کردن که تولید ویدیو با هوش مصنوعی واقعاً وارد فاز جدی شده. حتی نتفلیکس هم تو سریالش به اسم The Eternaut برای اولین بار از افکت تصویری تولید شده با AI استفاده کرده که برای بازار عظیم تلویزیون یه اتفاق بزرگه!
حواست هست این مدل ویدیوها دیگه اونقدر واقعی و طبیعی شدن که گاهی اصلاً فکر میکنی واقعاً فیلمبرداری شدن یا با CGI (انیمیشن کامپیوتری) ساختن!
حالا چجوری اصلاً یه ویدیویی با هوش مصنوعی ساخته میشه؟
اگه تو هم مثل من کاربر عادی باشی، حتماً با این سیستمها کار کردی: یه متن میدی، مثلاً “یه یونیکورن که داره اسپاگتی میخوره، شاخشم موشک میشه!” بعد مدل ویدیو میسازه برات، البته معمولاً همون اول کار دقیقاً اون چیزی که میخوای رو نمیده، باید چند بار امتحان کنی.
ولی اون پشت پرده چه خبره؟ چرا گاهی نتیجه خفن میشه و گاهی فاجعه؟
تقریباً همه مدلهای جدید تولید ویدیو، چیزی هستن به اسم “Latent Diffusion Transformer”. اسمش سنگینه، ولی بیا آروم آروم بازش کنیم:
۱. diffusion model یا مدل پخشی چیه؟
فرض کن یه عکس داری و هی روش پیکسلهای تصادفی میریزی تا مثل برفک تلویزیون قدیمی بشه. حالا مدل diffusion یا مدل پخشی، با شبکه عصبی آموزش دیده که این روند رو برعکس کنه. یعنی برفک رو کمکم جمع کنه و دوباره یه عکس قشنگ سر هم کنه. واسه آموزش هم بهش میلیونها عکس تو حالتهای مختلف نشون دادن. در اصل مدل یاد میگیره چطور از یه عالمه نویز، یه تصویر واقعی دربیاره.
ولی خب ما فقط تصویر نمیخوایم، بلکه یه تصویر خاص میخوایم که با متن توی پرامپت گفتیم. برای همین diffusion معمولا کنار یه مدل دیگه به اسم LLM (Large Language Model یعنی مدل زبانی بزرگ مثل GPT یا Gemini) میاد که کمکش کنه و بهش بگه چطور باید تصویر ساخته شده به متنت بخوره.
یه نکته: این ارتباط تصویر و متن همینجوری تو هوا پیدا نشده! این مدلها رو با بیلیونها جفت متن-تصویر یا متن-ویدیو که از اینترنت جمع کردن (که خیلی از هنرمندا و سازندهها هم از این بابت ناراضیان!) آموزش دادن، واسه همین نتیجهها یه جورایی عصاره سایتها و نگاه دنیا تو اینترنت هست (گاهی هم همراه با سوگیری و حتی چیزهای نامناسب!).
مدل diffusion اول واسه عکسها اومده بود، ولی الان واسه صدا و ویدیو هم هست. مثلاً برای ویدیو بجای یک عکس، باید سکانس فریمهای پشت هم رو بازسازی کنه.
۲. latent diffusion یعنی چی؟
کل این داستان تولید ویدیو واقعاً انرژی و قدرت پردازشی زیادی میبره. latent diffusion یعنی به جای کار با خود پیکسلها، مدل اطلاعات فریمها رو به یه کد ریاضی فشرده تبدیل میکنه که فقط ویژگیهای مهم رو داره و بقیه جزئیات بیخود رو میریزه دور. درست مثل زمانی که یه فیلم رو آنلاین استریم میکنی و ویدیو تو یه فرمت فشرده از سرور دانلود میشه بعد جلوی تو آنفشرده میشه.
آخر سر، باز این دادههای فشردهشده رو مدل تبدیل به ویدیویی میکنه که واقعاً میتونی ببینی. پس این روش خیلی نسبت به مدل diffusion اولیه بهینهتر و سریعتره، ولی بازم تولید ویدیو مصرف انرژی چندبرابری نسبت به تصویر یا متن داره چون حجم پردازش وحشتناکه!
۳. story of transformers — چرا لازمه؟
حالا باید یه ترفند دیگه هم استفاده کنن تا فریمهای ویدیو، مُچ هم باشن. مثلاً شیءها یهدفعه ظاهر/غیب نشن، نور و صحنه عوض نشه و همه چی یکپارچه باشه. اینجا transformerها وارد میشن—transformer به زبان ساده یه مدل هوش مصنوعی فوقالعاده قویه که میتونه توالی دادهها رو بفهمه: اصلیترین قسمت مدلهای چتبات مثل GPT-5 و Gemini همین ترنسفورمرها هستن که کمک میکنن متنها معنیدار و پشت هم بیان.
برای ویدیو هم، یه راه جالب درست کردن: کل ویدیو رو به قسمتهای کوچیک (شبیه برشهای مکعبی از یه سری فریم ویدیویی) تقسیم میکنن. اینجوری مدل ترنسفورمر میتونه روی هرکدوم کار کنه و دقت و انسجام رو حفظ کنه. حسنش اینه که دیگه فرق نمیکنه ویدیو موبایلی باشه یا فیلم سینمایی؛ همین مدل رو میشه برای همه جور تصویر و ویدیو آموزش داد، برای همین ویدیوهای هوش مصنوعی نسبت به دو سال پیش کلی پیشرفت داشتن و تو انواع فرمتها جواب میدن.
۴. قضیه صدا چی میشه؟
تا همین اواخر ویدیوهای AI کاملاً بیصدا ساخته میشدن. Veo 3 اولین مدلیه که یهویی سطح کار رو برد بالا و همزمان ویدیو و صدا (از دیالوگ تا افکت و صدای محیط) رو درست تولید میکنه و هماهنگ میده بیرون!
کاری که DeepMind کرد این بود که ویدیو و صدا رو با هم تو یه داده فشرده ترکیب کنه و مدل diffusion بتونه هر دوتا رو همزمان براساس پرامپت بسازه. اینجوری صدای لبخوانی، موسیقی و هر صدای زمینهای دقیقاً با تصویر میخونه.
۵. LLMها هم همینجوری کار میکنن؟
نه دقیقاً! LLMها (مدلهای زبانی بزرگ) بیشتر از transformerها استفاده میکنن و متن تولید میکنن. ولی مرز بینشون داره کمکم کمرنگ میشه. مثلاً DeepMind یه LLM آزمایشی ساخته که با مدل diffusion متن میسازه، چون باور دارن مدل diffusion واسه تولید متن هم میتونه حتی کارآمدتر از transformer باشه.
۶. چندتا ایراد و چالش!
اوکی، اینا همه جذابن ولی تولید ویدیوی هوش مصنوعی یه عالمه انرژی میبره؛ خیلی بیشتر از عکس یا متن. تازه فید شبکههای اجتماعی پر شده از خبرهای فیک و ویدیوهای ساختگی که مرز بین واقعیت و خیال رو سختتر کرده. خلاصه با پیشرفت این مدلها، باید خودمون رو آماده دنیای تازهای از ویدیوهای عجیب، جالب و گاهی هم خطرناکتر کنیم!
در کل، ترکیب مدلهای diffusion، latent diffusion و transformerها کاری کرده که هوش مصنوعی دیگه فقط عکس نسازه بلکه میتونه ویدیوهای واقعی با صدا و افکتهای عجیب بسازه. این تکنولوژی واقعاً داره دنیای فیلم و رسانه رو متحول میکنه و هر روز باید انتظار چیزهای جدیدتر و باحالتری رو داشته باشیم!
منبع: +