راز خلاقیت عجیب هوش مصنوعی بالاخره لو رفت!

همیشه بهمون گفته بودن قراره ماشین‌ها و ربات‌ها کارهای آدم‌ها رو انجام بدن؛ مثلاً ماشین‌هایی که خودشون رانندگی می‌کنن یا ربات‌هایی که خونه رو تمیز می‌کنن. ولی چیزی که واقعاً دیدیم این بود که هوش مصنوعی (همون AI که خلاصه Artificial Intelligence هست) اومده و توی کارهای ذهنی مثل شطرنج‌بازی، تحلیل حجم عظیمی متن یا حتی سرودن شعر از خیلی آدما قوی‌تر شده! خیلی جالبه که کارهای فیزیکی برای ربات‌ها خیلی سخته، ولی الگوریتم‌ها دارن توی خلاقیت مغزمون رو به چالش می‌کشن.

چیزی که مدت‌ها دانشمندها رو گیج کرده بود، همین خلاقیت عجیب الگوریتم‌ها بود. مخصوصاً تو نسل جدید الگوریتم‌ها به اسم “مدل‌های دیفیوژن” (Diffusion Models) که پایه ابزارهایی مثل DALL·E، Imagen یا Stable Diffusion هستن. این مدل‌ها در اصل فقط باید کپی تصاویر آموزش‌دیدشون رو بسازن، ولی توی عمل، میان یه چیز جدید خلق می‌کنن؛ مثلاً چنتا چیز رو قاطی می‌کنن و تصویر تازه‌ای درست می‌کنن که معنی‌دار هم هست! این قضیه خیلی غیرمنتظره‌س، چون طبق تئوری باید فقط حفظ کنن و مثل ماشین کپی خروجی بدن، ولی تو عمل یه نوع خلاقیت عجیب از خودشون نشون می‌دن.

حالا ببین اصلاً این مدل‌های دیفیوژن چطور کار می‌کنن: اول میان تصویر رو می‌گیرن و تبدیلش می‌کنن به نویز دیجیتالی (noise)، یعنی یه عالمه نقطه رنگی بی‌معنی – مثل وقتی که یه نقاشی رو بندازی تو دستگاه خردکن تا فقط پودر شه! بعد همین تکه‌پاره‌ها رو با پروسه‌ای به اسم “denoising” دوباره سعی می‌کنن بسازن. سؤال اینه: چطور وقتی فقط دارن دوباره این تکه‌ها رو کنار هم می‌ذارن، خروجی جدید و خلاقانه درمیاد؟

این وسط دوتا فیزیکدان اومدن یه ادعای باحال مطرح کردن: میگن همین نقص‌های تکنیکی توی پروسه denoising باعث خلاقیت مدل‌های دیفیوژن شده! در واقع این خلاقیت یه نتیجه اجتناب‌ناپذیر از معماری مدل‌هاست، نه یه جادوی عجیب و غریب. توی مقاله‌ای که قراره سال ۲۰۲۵ توی کنفرانس بین‌المللی یادگیری ماشین (Machine Learning Conference) ارائه بدن، نشون دادن این خلاقیت اتفاقی نیست و کاملاً قابل پیش‌بینیه.

یکی از نویسنده‌های اصلی این مقاله، میسون کمپ (Mason Kamb)، دانشجوی دکترای فیزیک کاربردی از دانشگاه استنفورد، سال‌هاست به یه مفهوم به اسم “مورفوژنز” (Morphogenesis) علاقه داره. مورفوژنز یعنی همون فرآیندهایی که باعث می‌شن سلول‌های موجودات زنده خودبه‌خود سازماندهی بشن و مثلاً یه دست یا یه اندام خاص بسازن. مدل مشهورش الگوی تورینگ (Turing pattern) هست، که اسمش از آلن تورینگ گرفته شده؛ ایشون ریاضیدان معروف قرن بیستم بوده. ساز و کارش به این شکله که هر سلول فقط با همسایه‌هاش در ارتباطه و هیچ مدیری بالا سرشون نیست. سیستم “از پایین به بالا” مثل اینه که همه خودشون تصمیم میگیرن.

وقتی اولین تصاویر هوش مصنوعی رو تو اینترنت دیدیم، خیلیاشون شبیه نقاشی‌های سورئال بودن؛ مثلاً آدمایی با شیش تا انگشت! این دقیقاً همون چیزی بود که کمپ رو یاد مورفوژنز انداخت – یعنی خودش گفت: انگار یه اختلال سیستمی از نوع پایین به بالا داریم که نتیجه‌ش این شده!

حالا بذار ساده‌تر بگم چرا مدل‌های دیفیوژن اینطوری شدن: AI برای ساختن تصویر دوتا ترفند فنی میزنه. اولیش لوکال بودن (locality) یا محلی بودنِ تمرکزه؛ یعنی فقط روی یه قسمت کوچیک (یا “patch” پیکسل‌ها) کار می‌کنه. دومیشقدرت تغییرناپذیری ترجمه‌ای (translational equivariance) هست؛ یعنی اگه ورودی رو دو تا پیکسل این‌ور اون‌ور کنی، مدل هم خودش رو هماهنگ می‌کنه تا ساختار کلی خراب نشه. این قابلیت باعث می‌شه تصویر واقعی‌تر و منسجم‌تر باشه.

اینجوری هر تیکه تصویر رو جدا به صورت لوکال می‌سازه و خیلی اهمیت نمی‌ده که این تیکه آخر کجای تصویر می‌شینه! بعدش با معادلات ریاضی به اسم “score function” یا همون الگوریتم امتیازدهی (یادآور Turing pattern دیجیتاله)، همه تیکه‌ها رو به هم می‌چسبونه.

تا همین چند وقت پیش، دانشمندها فکر می‌کردن این محدودیت‌ها فقط یه نقطه ضعفه و باعث می‌شه مدل‌ها خروجی‌های خنده‌دار (مثل دست شش‌انگشتی) بسازن، نه اینکه سرچشمه خلاقیت بشن! ولی حالا یه انقلاب فکری شکل گرفته.

کمپ و استادش سوریا گنگولی (Surya Ganguli) یه سیستم طراحی کردن به اسم ELS machine (equivariant local score) که فقط با همین دو خاصیت لوکال بودن و تغییرناپذیری می‌تونه پیش‌بینی کنه تصویر تصحیح‌شده (denoised) چی درمیاد. حتی بدون اینکه مدل از قبل آموزش دیده باشه! اومدن تصویرهای گوناگون رو تبدیل به نویز کردن، بعد با این دستگاه ELS و با مدل‌های معروف مثل ResNet و UNet مقایسه کردن. نتیجه‌ش خیلی عجیب بود: این سیستم تا ۹۰٪ تونسته خروجی مدل‌های دیفیوژن رو این‌همانی پیش‌بینی کنه! این دقت، توی ماشین‌لرنینگ واقعاً نادره.

پس چی شد؟ همون ویژگی‌هایی که تا دیروز فکر می‌کردیم نقطه ضعف مدل‌های دیفیوژن هست، الان مشخص شده که خودش منشأ خلاقیته و باعث می‌شه مدل بدون هیچ طرح کلی از کار نهایی، فقط با تمرکز روی تیکه‌تیکه‌ها، تصاویر تازه خلق کنه. حتی همین پدیده دست‌های چندانگشتی ناشی از همین مسئله‌س: مدل‌ها فقط به یه پچ از پیکسل‌ها نگاه می‌کنن و براشون مهم نیست بقیه تصویر چیه.

البته این تحقیق تازه اول ماجراست. چون مثلاً مدل‌های زبانی بزرگ یا هوش مصنوعی‌هایی که متن تولید می‌کنن، مثل همین چت‌بات‌ها، از این ترفندها استفاده نمی‌کنن ولی اونام خلاقیت نشون می‌دن. پس بخشی از معما حل شده، ولی هنوز کل جواب زیر سر مدل‌های دیفیوژن نیست.

نکته جذاب آخر اینه که این کشف حتی می‌تونه چیزهایی درباره ذهن انسان بهمون یاد بده! یکی از پژوهشگران دیگه به اسم بنجامین هوور گفته انسان هم دقیقاً از خاطرات، رویاها، شنیده‌ها و دیده‌هاش مثل بلوک‌هایی برای ساختن ایده‌های جدید کمک می‌گیره؛ درست مثل AI که بلوک‌های داده‌شو می‌چینه. هر دو (انسان و هوش مصنوعی) دارن با اطلاعات ناقص بهترین نتیجۀ ممکن رو می‌سازن و بعضی وقتا یه چیز باحال و جدید از آب درمیاد – شاید اسم این همون “خلاقیت” باشه!

پ.ن: این مقاله خلاصه و دراماتیزۀ مقاله اصلی Quanta Magazine بود و به کمک سایت Live Science براتون توضیح داده شد 😉

منبع: +