ماجرای Over-Smoothing توی شبکه‌های عصبی گرافی: داستان عجیب اندرسون لوکالیزیشن!

Fall Back

اگه اهل هوش مصنوعی و کار با داده‌های گرافی باشی، احتمالاً اسم Graph Neural Networks یا همون GNN رو شنیدی. GNNها واقعاً ابزار قدرتمندی هستن برای کار با انواع داده‌هایی که بصورت گراف هستن – مثلاً شبکه اجتماعی، ارتباط بین کاربرا، مولکول‌ها و کلی سناریوی دیگه. خب، یکی از مشکلات دردسرساز این مدل‌ها اینه که هرچی تعداد لایه‌هاشون زیادتر میشه یا به قول معروف “عمیق‌تر” میشن، مشکل Over-Smoothing هم شدیدتر میشه.

Over-Smoothing یعنی چی؟ اینطوری تصور کن: قراره هر گره تو گراف اطلاعات خاص خودش رو داشته باشه (مثلاً هر نفر تو یه شبکه اجتماعی دیدگاه خودشو داره). ولی وقتی GNN خیلی لایه‌لایه میشه و هر گره هی داره از بقیه گره‌ها اطلاعات می‌گیره، کم‌کم همه‌شون تبدیل می‌شن به یه چیزی شبیه هم، انگار همه‌چی یکنواخت و بی‌تمایز میشه! این دقیقاً میشه همون Over-Smoothing.

حالا این مقاله اومده یه زاویه جدید و خیلی باحال به این موضوع نگاه کرده! نویسنده‌ها از یه پدیده فیزیکی قدیمی‌ به اسم Anderson localization صحبت کردن – یه توضیح ساده ازش: اندرسون لوکالیزیشن یعنی تو بعضی سیستم‌های فیزیکی بی‌نظم (مثلاً یه کریستال بی‌نظم)، بعضی امواج لرزشی یا الکترون‌ها گیر می‌کنن و دیگه درست پخش نمیشن. خلاصه‌ش، هرچی بی‌نظمی (Disorder) تو سیستم بیشتر باشه، الکترون‌ها نمی‌تونن خوب حرکت کنن و گیر می‌افتن!

حالا نویسنده‌ها یه مقایسه جالب کردن: تو GNN وقتی اطلاعات هی لایه‌لایه پخش میشه، انگار گره‌هایی که خیلی شبیه هم میشن و تمایزشونو از دست میدن، مثل همون الکترون‌هایی هستن که تو یه سیستم بی‌نظم گیر افتادن!

اونا برای سنجیدن میزان این اتفاق، یه معیاری آوردن به اسم Participation Degree. یعنی چقدر هر مود (یا همون قسمت‌های مختلف اطلاعات) توی کل گره‌ها پخش شده یا متمرکز شده. توی زبان ساده: وقتی Participation Degree کمه، یعنی اطلاعات فقط یه نقطه خاص جمع شده (لوکالیزه شده) و وقتی زیاده، یعنی پخشش همه‌جاست.

خلاصه داستان: تو GNN هرچی عمق شبکه بیشتر میشه، مودهای فرکانس پایین (اونا که آروم تغییر می‌کنن) کل گراف رو تحت تأثیر قرار میدن و Participation Degreeشون بیشتر میشه – یعنی همه‌چی یکی میشه و گره‌ها تفاوت‌هاشون رو گم می‌کنن. از اون ور، مودهایی که فرکانس بالاتر دارن (یعنی اطلاعات یهویی و محلی)، Participation Degreeشون پایین میاد و انگار فقط تو نقطه‌های خاص جمع میشن و بقیه جاها بی‌خبر می‌مونن!

نویسنده‌ها تو مقاله اومدن هم از لحاظ نظری این ماجرا رو بررسی کردن و هم یه پیشنهاد دادن: اگه بتونیم «بی‌نظمی» یا Disorder رو تو نحوه پخش اطلاعات توی GNN کمتر کنیم – منظور همون اطلاعات پرت‌پلا که باعث میشه پیام‌ها نتونن خوب پخش بشن – احتمالاً میشه Over-Smoothing رو هم کمتر کرد!

در کل این مقاله میخواد بگه اگه مشکل Over-Smoothing اذیتت میکنه، تخیلتو آزاد کن و از فیزیک کمک بگیر؛ شاید با بهتر کردن روند پخش اطلاعات‌ توی مدل‌هات، بتونی گره‌هاتو خاص و متمایز نگه داری و دچار همشکلی نشی!

پ.ن: جالبه بدونی این زاویه فیزیکی به GNNها نشون میده که خیلی مفاهیم عجیب از دنیای علم، می‌تونن واسه فهمیدن و حتی حل مشکلاتامون تو هوش مصنوعی به‌درد بخورن 😃
منبع: +