خب واقعاً تا حالا به این فکر کردی که چطوری میشه به یه عکس ساده منظره، جون بدی و تبدیل به ویدیو بکنی؟ مثلاً عکس یه آبشار، یا اون دریایی که همیشه آرومه، رو ورداری و توش حرکت آب درست کنی؟ حالا نه فقط یه حرکت ساده، بلکه کاملاً طبیعی و مثل واقعیت. همین موضوعیه که یه سری محقق تو یه مقاله جدید روش کار کردن و نتایجش واقعاً جالبه.
راستش، مدلهای قدیمی اغلب با شبیهسازی فیزیکی سر و کار داشتن. منظورم اینه که مثلاً رد و بدل شدن ذرات آب رو شبیهسازی میکردن (یعنی حرکت تکتک ذرههای آب رو بررسی میکردن، که خودش کلی معادله و سختی داره)، ولی مشکلش اینه که وقتی آب به مرزهای تصویر میرسه یا شرایط پیچیده میشه، حسابی دردسر درست میشه و کنترل قضیه بیرون میره.
حالا تو این مدت، مدلهایی به اسم Diffusion Models اومدن که کلی سر و صدا کردن. مدلهای Diffusion یعنی مدلهایی که تصویر یا ویدیو رو به یه سری حالتِ نهفته یا همون فشردهشده تبدیل میکنن و بعد دوباره با روش خودشون، reconstruct یا بازسازی میکنن. به تازگی این مدلها تو ساخت ویدیو از عکس کلی طرفدار دارن چون هم کیفیت تصویر بالاست، هم حرکتها به نظر طبیعی و منظم میان.
ولی یه مشکلی هست: حرکت مایعات (مثل آب رودخونه و موج دریا) تو این مدلها هنوز اون حالت طبیعی و روون رو نداره و گاهی اوقات همهچی مصنوعی به نظر میرسه. حالا این مقاله اومده یه راهِ باحال رو پیشنهاد داده که بتونیم این مایعات رو دقیقتر و دلخواهتر تو عکس به حرکت بندازیم.
ایدهی اصلی چیه؟ اینکه به سیستم میتونی یه Sketch یا همون طرح دستی بدی، یعنی مثلاً یه خط یا منحنی بکشی روی عکس که بهش نشون بدی آب باید تو این جهت یا با این فرم حرکت کنه. انگار داری با مداد روی عکس منظرهت راه آب رو مشخص میکنی!
حالا چجوری این اتفاق میفته؟ اومدن یه مدل Diffusion (همون مدلهای هوش مصنوعی تولیدی تصویری که گفتیم) رو حسابی تربیت و شخصیسازی کردن (به این میگن Fine-tune یعنی دقیقاً متناسب با این کار آموزش دادن) که حتی بتونه این طرح کاربر رو درک کنه و مسیر حرکت آب رو بر اساس اون بسازه. این اسکچ بعداً میره تو یه ماژولی به اسم Motion Adapter (یعنی ماژولی که میتونه طرح حرکت رو به زبان مدل تبدیل کنه) و بعد کل این اطلاعات میره تو مدل اصلی تا دقیقا همون حرکتی که خواسته شده روی عکس اجرا بشه.
نکته مهم اینه که حالت نهایی هم از نظر کیفیت تصویر بالاست و هم حرکت آب مثلاً تو یه رودخونه کاملاً منطقی و طبیعی به نظر میاد و دیگه خبری از حرکتهای عجیب و غریب نیست.
در کل یعنی با این روش جدید، شما میتونی به عکسهای ثابت منظره با چندتا خط ساده جون بدی و ویدیوهای طبیعی بسازی، بدون اینکه دنبال شبیهسازی فیزیکی پیچیده باشی یا نگران باشی که مرز عکس خراب بشه. خلاصه شد بازی با آب فقط تو حیاط نمیمونه، رو عکس هم میشه واقعاً هیجانش رو حس کرد!
منبع: +