وقتی مدل‌های دیفیوژن یا خیلی ساده میشن یا مثل ماشین تورینگ قوی‌ان!

امروز میخوام یه مقاله باحال و یه‌کم عجیب درباره مدل‌های دیفیوژن (Diffusion Models) براتون توضیح بدم. مدل دیفیوژن یعنی یه مدل هوش مصنوعیه که کم‌کم نویز (صدا و آشوب!) میده به داده‌ها و بعد سعی می‌کنه مرحله به مرحله اون نویز رو برداره و دوباره اطلاعات واقعی رو بسازه. جدیداً این مدل‌ها تو ساخت تصویر یا حتی زبان استفاده میشن.

حالا این مقاله اومده بررسی کنه که پیچیدگی محاسباتی (یعنی اینکه چقدر یک کار سخته از نظر محاسباتی) مدل زبان‌یابی که با دیفیوژن کار می‌کنه چیه.

دو حالت جالب رو تو این مقاله گفتن:

۱. دیفیوژن درست و حسابی (= perfect diffusion): اگه اون شبکه‌ای که امتیاز (score) رو محاسبه می‌کنه، بتونه خیلی دقیق و بی‌نقص این کار رو انجام بده—یعنی دقیق بفهمه تو هر مرحله باید چی کار کنه—اون‌وقت این مدل فقط می‌تونه تو کلاسی به اسم TC^0 کار کنه.

حالا TC^0 چیه؟ این یه کلاس از مسائله که کامپیوتر می‌تونه اونا رو خیلی خیلی سریع و با چندتا پردازش موازی حل کنه. یعنی: اگه مدل دیفیوژن خیلی کامل باشه، در عمل مدل خیلی ساده‌ای محسوب میشه و نمی‌تونه کارهای خیلی پیچیده بکنه!

۲. دیفیوژن خراب یا بی‌قید و بند (bad diffusion): حالا اگه ما هیچ الزامی روی اون شبکه امتیازگذار نذاریم و بهش بگیم هر کاری دلش خواست بکنه، این مدل می‌تونه به‌شکلی هر ماشین تورینگ رو شبیه‌سازی کنه.

اینجا ماشین تورینگ یعنی چیزی که هرکاری از نظر محاسباتی بتونه انجام بده — مثل مغز یک کامپیوتر که هیچ محدودیتی نداره.

پس خلاصه‌ش این شد: اگر مدلِ امتیازسازِ دیفیوژن کاملاً درست و بی‌ایراد باشه، مدل ساده و محدود داریم؛ اگه هیچی محدودیت نذاریم، اینقدر پیچیده میشه که در حد ماشین تورینگ قدرت داره!

خیلی باحاله که این دوتا حالت دو سر یک طیفن. یک طرفش مدل سریع و ساده، طرف دیگش مدل خیلی خیلی قدرتمند (و غیرعملی!). این مقاله میگه این موضوع یه دید تئوری (یعنی نظری و علمی) به ما میده درباره اینکه مدل‌های دیفیوژن چی بلدن و کجاها کم میارن. مخصوصاً وقتی بحث حل کارهای زنجیره‌ای و مرحله به مرحله باشه.

یه نکته دیگه هم گفتن: حدس میزنن حتی اگه مدل دیفیوژن نه خیلی بد و نه خیلی کامل باشه — یعنی وسط این دو سر طیف ــ هم نتایج جالبی درمیاد. البته این بخش هنوز حدسه و کامل اثبات نشده.

به جز این بحثا، مقاله یه پیشنهاد جالب هم داره: یه معماری یادگیری ماشین که بتونه هم حالت زنجیره‌ای (Sequential) و هم حالت موازی (Parallel) کار کنه، از هم ترنسفورمرها (Transformer — یه مدل پرطرفدار تو هوش مصنوعی که خیلی موازی و سریع کار می‌کنه) و هم مدل‌های دیفیوژن بهتر درمیاد. یعنی اگه مدلی داشته باشیم که بین این دو تا حالت سوئیچ کنه، می‌تونه قوی‌تر بشه.

در کل این مقاله بیشتر تئوریه، ولی کلی نکته باحال برای فهمیدن اینکه مدل‌های دیفیوژن چه محدودیت و قدرتایی دارن مطرح می‌کنه. مخصوصاً برای کسایی که به ترکیب ریاضی، کامپیوتر و هوش مصنوعی علاقه دارن، خوندنیه!

منبع: +