مدل‌های هوش مصنوعی چجوری ویدیو تولید می‌کنن؟ داستا‌ن پشت این ویدیوی عجیب و غریب!

خب، بیا یه نگاه بندازیم به دنیای عجیب و غریب تولید ویدیو با هوش مصنوعی — همونی که حسابی سر و صدا کرده و دنیای تکنولوژی رو برده یه مرحله بالاتر! تازگیا ابزارهای مثل Sora از OpenAI (که خودشه یه غول داستانه)، Veo 3 از Google DeepMind و Gen-4 از Runway کاری کردن که تولید ویدیو با هوش مصنوعی واقعاً وارد فاز جدی شده. حتی نتفلیکس هم تو سریالش به اسم The Eternaut برای اولین بار از افکت تصویری تولید شده با AI استفاده کرده که برای بازار عظیم تلویزیون یه اتفاق بزرگه!

حواست هست این مدل ویدیوها دیگه اون‌قدر واقعی و طبیعی شدن که گاهی اصلاً فکر می‌کنی واقعاً فیلمبرداری شدن یا با CGI (انیمیشن کامپیوتری) ساختن!

حالا چجوری اصلاً یه ویدیویی با هوش مصنوعی ساخته میشه؟

اگه تو هم مثل من کاربر عادی باشی، حتماً با این سیستم‌ها کار کردی: یه متن می‌دی، مثلاً “یه یونیکورن که داره اسپاگتی می‌خوره، شاخشم موشک میشه!” بعد مدل ویدیو می‌سازه برات، البته معمولاً همون اول کار دقیقاً اون چیزی که می‌خوای رو نمیده، باید چند بار امتحان کنی.

ولی اون پشت پرده چه خبره؟ چرا گاهی نتیجه خفن میشه و گاهی فاجعه؟

تقریباً همه مدل‌های جدید تولید ویدیو، چیزی هستن به اسم “Latent Diffusion Transformer”. اسمش سنگینه، ولی بیا آروم آروم بازش کنیم:

۱. diffusion model یا مدل پخشی چیه؟

فرض کن یه عکس داری و هی روش پیکسل‌های تصادفی میریزی تا مثل برفک تلویزیون قدیمی بشه. حالا مدل diffusion یا مدل پخشی، با شبکه عصبی آموزش دیده که این روند رو برعکس کنه. یعنی برفک رو کم‌کم جمع کنه و دوباره یه عکس قشنگ سر هم کنه. واسه آموزش هم بهش میلیون‌ها عکس تو حالت‌های مختلف نشون دادن. در اصل مدل یاد می‌گیره چطور از یه عالمه نویز، یه تصویر واقعی دربیاره.

ولی خب ما فقط تصویر نمی‌خوایم، بلکه یه تصویر خاص می‌خوایم که با متن توی پرامپت گفتیم. برای همین diffusion معمولا کنار یه مدل دیگه به اسم LLM (Large Language Model یعنی مدل زبانی بزرگ مثل GPT یا Gemini) میاد که کمکش کنه و بهش بگه چطور باید تصویر ساخته شده به متنت بخوره.

یه نکته: این ارتباط تصویر و متن همینجوری تو هوا پیدا نشده! این مدل‌ها رو با بیلیون‌ها جفت متن-تصویر یا متن-ویدیو که از اینترنت جمع کردن (که خیلی از هنرمندا و سازنده‌ها هم از این بابت ناراضی‌ان!) آموزش دادن، واسه همین نتیجه‌ها یه جورایی عصاره سایت‌ها و نگاه دنیا تو اینترنت هست (گاهی هم همراه با سوگیری و حتی چیزهای نامناسب!).

مدل diffusion اول واسه عکس‌ها اومده بود، ولی الان واسه صدا و ویدیو هم هست. مثلاً برای ویدیو بجای یک عکس، باید سکانس فریم‌های پشت هم رو بازسازی کنه.

۲. latent diffusion یعنی چی؟

کل این داستان تولید ویدیو واقعاً انرژی و قدرت پردازشی زیادی می‌بره. latent diffusion یعنی به جای کار با خود پیکسل‌ها، مدل اطلاعات فریم‌ها رو به یه کد ریاضی فشرده تبدیل می‌کنه که فقط ویژگی‌های مهم رو داره و بقیه جزئیات بیخود رو می‌ریزه دور. درست مثل زمانی که یه فیلم رو آنلاین استریم می‌کنی و ویدیو تو یه فرمت فشرده از سرور دانلود میشه بعد جلوی تو آنفشرده میشه.

آخر سر، باز این داده‌های فشرده‌شده رو مدل تبدیل به ویدیویی می‌کنه که واقعاً می‌تونی ببینی. پس این روش خیلی نسبت به مدل diffusion اولیه بهینه‌تر و سریع‌تره، ولی بازم تولید ویدیو مصرف انرژی چندبرابری نسبت به تصویر یا متن داره چون حجم پردازش وحشتناکه!

۳. story of transformers — چرا لازمه؟

حالا باید یه ترفند دیگه هم استفاده کنن تا فریم‌های ویدیو، مُچ هم باشن. مثلاً شیءها یه‌دفعه ظاهر/غیب نشن، نور و صحنه عوض نشه و همه چی یکپارچه باشه. اینجا transformerها وارد میشن—transformer به زبان ساده یه مدل هوش مصنوعی فوق‌العاده قویه که می‌تونه توالی داده‌ها رو بفهمه: اصلی‌ترین قسمت مدل‌های چت‌بات مثل GPT-5 و Gemini همین ترنسفورمرها هستن که کمک می‌کنن متن‌ها معنی‌دار و پشت هم بیان.

برای ویدیو هم، یه راه جالب درست کردن: کل ویدیو رو به قسمت‌های کوچیک (شبیه برش‌های مکعبی از یه سری فریم ویدیویی) تقسیم می‌کنن. اینجوری مدل ترنسفورمر می‌تونه روی هرکدوم کار کنه و دقت و انسجام رو حفظ کنه. حسنش اینه که دیگه فرق نمی‌کنه ویدیو موبایلی باشه یا فیلم سینمایی؛ همین مدل رو میشه برای همه جور تصویر و ویدیو آموزش داد، برای همین ویدیوهای هوش مصنوعی نسبت به دو سال پیش کلی پیشرفت داشتن و تو انواع فرمت‌ها جواب میدن.

۴. قضیه صدا چی میشه؟

تا همین اواخر ویدیوهای AI کاملاً بی‌صدا ساخته می‌شدن. Veo 3 اولین مدلیه که یهویی سطح کار رو برد بالا و همزمان ویدیو و صدا (از دیالوگ تا افکت و صدای محیط) رو درست تولید می‌کنه و هماهنگ میده بیرون!

کاری که DeepMind کرد این بود که ویدیو و صدا رو با هم تو یه داده فشرده ترکیب کنه و مدل diffusion بتونه هر دوتا رو همزمان براساس پرامپت بسازه. اینجوری صدای لب‌خوانی، موسیقی و هر صدای زمینه‌ای دقیقاً با تصویر می‌خونه.

۵. LLMها هم همینجوری کار می‌کنن؟

نه دقیقاً! LLMها (مدل‌های زبانی بزرگ) بیشتر از transformerها استفاده می‌کنن و متن تولید می‌کنن. ولی مرز بینشون داره کم‌کم کمرنگ میشه. مثلاً DeepMind یه LLM آزمایشی ساخته که با مدل diffusion متن می‌سازه، چون باور دارن مدل diffusion واسه تولید متن هم می‌تونه حتی کارآمدتر از transformer باشه.

۶. چندتا ایراد و چالش!

اوکی، اینا همه جذابن ولی تولید ویدیوی هوش مصنوعی یه عالمه انرژی می‌بره؛ خیلی بیشتر از عکس یا متن. تازه فید شبکه‌های اجتماعی پر شده از خبرهای فیک و ویدیوهای ساختگی که مرز بین واقعیت و خیال رو سخت‌تر کرده. خلاصه با پیشرفت این مدل‌ها، باید خودمون رو آماده دنیای تازه‌ای از ویدیوهای عجیب، جالب و گاهی هم خطرناک‌تر کنیم!

در کل، ترکیب مدل‌های diffusion، latent diffusion و transformerها کاری کرده که هوش مصنوعی دیگه فقط عکس نسازه بلکه می‌تونه ویدیوهای واقعی با صدا و افکت‌های عجیب بسازه. این تکنولوژی واقعاً داره دنیای فیلم و رسانه رو متحول می‌کنه و هر روز باید انتظار چیزهای جدیدتر و باحال‌تری رو داشته باشیم!

منبع: +