امروز میخوام یه مقاله باحال و یهکم عجیب درباره مدلهای دیفیوژن (Diffusion Models) براتون توضیح بدم. مدل دیفیوژن یعنی یه مدل هوش مصنوعیه که کمکم نویز (صدا و آشوب!) میده به دادهها و بعد سعی میکنه مرحله به مرحله اون نویز رو برداره و دوباره اطلاعات واقعی رو بسازه. جدیداً این مدلها تو ساخت تصویر یا حتی زبان استفاده میشن.
حالا این مقاله اومده بررسی کنه که پیچیدگی محاسباتی (یعنی اینکه چقدر یک کار سخته از نظر محاسباتی) مدل زبانیابی که با دیفیوژن کار میکنه چیه.
دو حالت جالب رو تو این مقاله گفتن:
۱. دیفیوژن درست و حسابی (= perfect diffusion): اگه اون شبکهای که امتیاز (score) رو محاسبه میکنه، بتونه خیلی دقیق و بینقص این کار رو انجام بده—یعنی دقیق بفهمه تو هر مرحله باید چی کار کنه—اونوقت این مدل فقط میتونه تو کلاسی به اسم TC^0 کار کنه.
حالا TC^0 چیه؟ این یه کلاس از مسائله که کامپیوتر میتونه اونا رو خیلی خیلی سریع و با چندتا پردازش موازی حل کنه. یعنی: اگه مدل دیفیوژن خیلی کامل باشه، در عمل مدل خیلی سادهای محسوب میشه و نمیتونه کارهای خیلی پیچیده بکنه!
۲. دیفیوژن خراب یا بیقید و بند (bad diffusion): حالا اگه ما هیچ الزامی روی اون شبکه امتیازگذار نذاریم و بهش بگیم هر کاری دلش خواست بکنه، این مدل میتونه بهشکلی هر ماشین تورینگ رو شبیهسازی کنه.
اینجا ماشین تورینگ یعنی چیزی که هرکاری از نظر محاسباتی بتونه انجام بده — مثل مغز یک کامپیوتر که هیچ محدودیتی نداره.
پس خلاصهش این شد: اگر مدلِ امتیازسازِ دیفیوژن کاملاً درست و بیایراد باشه، مدل ساده و محدود داریم؛ اگه هیچی محدودیت نذاریم، اینقدر پیچیده میشه که در حد ماشین تورینگ قدرت داره!
خیلی باحاله که این دوتا حالت دو سر یک طیفن. یک طرفش مدل سریع و ساده، طرف دیگش مدل خیلی خیلی قدرتمند (و غیرعملی!). این مقاله میگه این موضوع یه دید تئوری (یعنی نظری و علمی) به ما میده درباره اینکه مدلهای دیفیوژن چی بلدن و کجاها کم میارن. مخصوصاً وقتی بحث حل کارهای زنجیرهای و مرحله به مرحله باشه.
یه نکته دیگه هم گفتن: حدس میزنن حتی اگه مدل دیفیوژن نه خیلی بد و نه خیلی کامل باشه — یعنی وسط این دو سر طیف ــ هم نتایج جالبی درمیاد. البته این بخش هنوز حدسه و کامل اثبات نشده.
به جز این بحثا، مقاله یه پیشنهاد جالب هم داره: یه معماری یادگیری ماشین که بتونه هم حالت زنجیرهای (Sequential) و هم حالت موازی (Parallel) کار کنه، از هم ترنسفورمرها (Transformer — یه مدل پرطرفدار تو هوش مصنوعی که خیلی موازی و سریع کار میکنه) و هم مدلهای دیفیوژن بهتر درمیاد. یعنی اگه مدلی داشته باشیم که بین این دو تا حالت سوئیچ کنه، میتونه قویتر بشه.
در کل این مقاله بیشتر تئوریه، ولی کلی نکته باحال برای فهمیدن اینکه مدلهای دیفیوژن چه محدودیت و قدرتایی دارن مطرح میکنه. مخصوصاً برای کسایی که به ترکیب ریاضی، کامپیوتر و هوش مصنوعی علاقه دارن، خوندنیه!
منبع: +