وسط‌گیری (یعنی همون Mean Centering) تو رگرسیون واقعاً لازمه؟ نه بابا، حتی ممکنه اشتباه هم بندازتم!

ببین اگه تابحال با تحلیل و آمار سر و کار داشتی، احتمالاً داستان وسط‌گیری یا همون Mean Centering رو شنیدی. یعنی چی؟ وسط‌گیری یعنی میانگین داده‌هات رو از هر نقطه کم کنی تا متغیرات حول صفر بچرخن. خیلی توی تحلیل رگرسیون مخصوصاً وقتی میخوای چندتا متغیر پیوسته رو با هم مقایسه کنی و تعامل (Interaction) یا اثر متقابل رو بررسی کنی، زیاد مطرح میشه.

حالا سوال اصلی اینه: وسط‌گیری واقعاً لازمه؟ یا فقط عادت کردیم هر جا یک مدل رگرسیون میزنیم اولین کاری که میکنیم اینه که داده‌ها رو وسط‌گیری کنیم؟ این مقاله اومده دقیقاً همین رو بررسی کنه و نتیجه‌ش هم جالبه!

اول از همه باید اینو بدونی که این وسط‌گیری همیشه تو کتاب‌های مختلف آماری پیشنهاد متفاوتی داشته. بعضی نویسنده‌ها میگن کاملاً لازمه؛ بعضیا میگن نه بابا، الکی وقت تلف کردنه! مخصوصاً توی مدل‌هایی که متغیرهاش پیوسته هستن (یعنی عددی و بدون دسته‌بندی مشخص، مثل قد یا درآمد)، سر این موضوع کلی اختلاف هست.

یه باور اشتباه که خیلی‌ها دارن اینه که بعد از وسط‌گیری، معنی ضرایب اصلی (مثلاً ضرایب خطی اول در رگرسیون تعدیل‌شده – همون Moderated Regression) تغییر میکنه یا مثلاً تفسیرش راحت‌تره. اما واقعیت اینه که ضرایب اصلی حتی بعد از وسط‌گیری هم معمولاً معنای «اثر اصلی» (Main Effect) رو نشون نمیدن. تازه، خیلی از آدم‌ها بعد از وسط‌گیری کلاً اشتباه تفسیر می‌کنن که این ضرایب چی رو نشون میدن!

توی تحقیق این مقاله اومدن هم توصیه‌های مختلف رو چک کردن، هم با دوتا مثال با مدل رگرسیون OLS (یعنی Ordinary Least Squares Regression – یه مدل خیلی پرکاربرد برای پیش‌بینی و تحلیل داده‌های عددی) نشون دادن:

وقتی متغیرهای پیوسته داری و میانگین رو ازشون کم می‌کنی، تاثیری رو مقدار ضرایب، فاصله اطمینان (Confidence Interval یعنی بازه‌ای که با احتمال بالا، مقدار درست توش قرار داره)، یا مقدار t و p (آزمون‌های آماری برای اهمیت اثر) نمی‌ذاره؛ چه برای اثرهای اصلی، چه برای تعامل‌ها، چه برای توان دوم (Quadratic Term – یعنی وقتی متغیر رو به توان هم می‌رسونی). نکته اینجاست: فقط مهمه بتونی تفسیر درست کنی که هر ضریب داره چی رو نشون میده، همین!

از طرفی، ضرایب استاندارد شده، همون Beta یا β که خیلی‌ها دوست دارن مقایسه کنن چون بی‌واحد هستن، یه سری اشکالات دارن. در عوض، ضریب همبستگی نیمه‌جزئی یا همون sr (Semipartial Correlation Coefficient – یعنی چقدر هر متغیر به‌تنهایی می‌تونه خروجی رو پیش‌بینی کنه) بعضی وقتا تفسیرش به مراتب قابل اعتمادتره.

یه نکته مهم دیگه اینکه بعضی از باورها درباره وسط‌گیری احتمالاً از اول هم اشتباه بودن؛ فقط چون کامپیوترهای قدیم یادشون می‌رفت عدد رو دقیق حساب کنن یا محدودیت محاسباتی داشتن، بحران multicollinearity (یعنی هم‌خطی شدن متغیرها که مدل رو گیج می‌کنه) مشکل ایجاد می‌کرد. ولی الان پیشرفت کامپیوترها باعث شده خیلی از این دردسرها دیگه دغدغه نباشه.

پس ته قصه چیه؟ وسط‌گیری تو رگرسیون با متغیرهای عددی (پیوسته) ممکنه گاهی برای راحت‌تر دیدن اثرها بهت کمک کنه، ولی به هیچ وجه واجب نیست. حتی گاهی ممکنه همین وسط‌گیری باعث شیطنت توی تفسیر بشه و تو رو گیج کنه!

پیشنهاد عملیشون چیه؟
۱- فقط وقتی وسط‌گیری کن که بدونی قراره کمکت کنه تفسیر اثر رو راحت‌تر ببینی، نه اینکه فکر کنی لازمه مدل درست کار کنه.
۲- حواست باشه ضرایب تعامل یا ضریب اول رگرسیون، لزوماً اثر اصلی رو نشون نمیدن، چه وسط‌گیری کرده باشی چه نکرده باشی. بعداً هر چی تفسیر کردی به همین مسئله ربط داره!
۳- اگه دنبال مقایسه اثرات مختلفی یا می‌خوای ببینی هر متغیر چقدر مستقل تاثیر داره، ضرایب sr رو هم نگاه کن.

در کل، یکی از اون باورهایی که سال‌ها همه فکر می‌کردن جزو قوانین رگرسیون بوده، داره کمرنگ میشه! پس بعد از این، هروقت استاد یا رئیس پروژه گفت «حتماً قبل تحلیل وسط‌گیری کن!» یه لبخند بزن و با اعتماد به نفس نظر جدید براش توضیح بده

منبع: +