ببین اگه تابحال با تحلیل و آمار سر و کار داشتی، احتمالاً داستان وسطگیری یا همون Mean Centering رو شنیدی. یعنی چی؟ وسطگیری یعنی میانگین دادههات رو از هر نقطه کم کنی تا متغیرات حول صفر بچرخن. خیلی توی تحلیل رگرسیون مخصوصاً وقتی میخوای چندتا متغیر پیوسته رو با هم مقایسه کنی و تعامل (Interaction) یا اثر متقابل رو بررسی کنی، زیاد مطرح میشه.
حالا سوال اصلی اینه: وسطگیری واقعاً لازمه؟ یا فقط عادت کردیم هر جا یک مدل رگرسیون میزنیم اولین کاری که میکنیم اینه که دادهها رو وسطگیری کنیم؟ این مقاله اومده دقیقاً همین رو بررسی کنه و نتیجهش هم جالبه!
اول از همه باید اینو بدونی که این وسطگیری همیشه تو کتابهای مختلف آماری پیشنهاد متفاوتی داشته. بعضی نویسندهها میگن کاملاً لازمه؛ بعضیا میگن نه بابا، الکی وقت تلف کردنه! مخصوصاً توی مدلهایی که متغیرهاش پیوسته هستن (یعنی عددی و بدون دستهبندی مشخص، مثل قد یا درآمد)، سر این موضوع کلی اختلاف هست.
یه باور اشتباه که خیلیها دارن اینه که بعد از وسطگیری، معنی ضرایب اصلی (مثلاً ضرایب خطی اول در رگرسیون تعدیلشده – همون Moderated Regression) تغییر میکنه یا مثلاً تفسیرش راحتتره. اما واقعیت اینه که ضرایب اصلی حتی بعد از وسطگیری هم معمولاً معنای «اثر اصلی» (Main Effect) رو نشون نمیدن. تازه، خیلی از آدمها بعد از وسطگیری کلاً اشتباه تفسیر میکنن که این ضرایب چی رو نشون میدن!
توی تحقیق این مقاله اومدن هم توصیههای مختلف رو چک کردن، هم با دوتا مثال با مدل رگرسیون OLS (یعنی Ordinary Least Squares Regression – یه مدل خیلی پرکاربرد برای پیشبینی و تحلیل دادههای عددی) نشون دادن:
وقتی متغیرهای پیوسته داری و میانگین رو ازشون کم میکنی، تاثیری رو مقدار ضرایب، فاصله اطمینان (Confidence Interval یعنی بازهای که با احتمال بالا، مقدار درست توش قرار داره)، یا مقدار t و p (آزمونهای آماری برای اهمیت اثر) نمیذاره؛ چه برای اثرهای اصلی، چه برای تعاملها، چه برای توان دوم (Quadratic Term – یعنی وقتی متغیر رو به توان هم میرسونی). نکته اینجاست: فقط مهمه بتونی تفسیر درست کنی که هر ضریب داره چی رو نشون میده، همین!
از طرفی، ضرایب استاندارد شده، همون Beta یا β که خیلیها دوست دارن مقایسه کنن چون بیواحد هستن، یه سری اشکالات دارن. در عوض، ضریب همبستگی نیمهجزئی یا همون sr (Semipartial Correlation Coefficient – یعنی چقدر هر متغیر بهتنهایی میتونه خروجی رو پیشبینی کنه) بعضی وقتا تفسیرش به مراتب قابل اعتمادتره.
یه نکته مهم دیگه اینکه بعضی از باورها درباره وسطگیری احتمالاً از اول هم اشتباه بودن؛ فقط چون کامپیوترهای قدیم یادشون میرفت عدد رو دقیق حساب کنن یا محدودیت محاسباتی داشتن، بحران multicollinearity (یعنی همخطی شدن متغیرها که مدل رو گیج میکنه) مشکل ایجاد میکرد. ولی الان پیشرفت کامپیوترها باعث شده خیلی از این دردسرها دیگه دغدغه نباشه.
پس ته قصه چیه؟ وسطگیری تو رگرسیون با متغیرهای عددی (پیوسته) ممکنه گاهی برای راحتتر دیدن اثرها بهت کمک کنه، ولی به هیچ وجه واجب نیست. حتی گاهی ممکنه همین وسطگیری باعث شیطنت توی تفسیر بشه و تو رو گیج کنه!
پیشنهاد عملیشون چیه؟
۱- فقط وقتی وسطگیری کن که بدونی قراره کمکت کنه تفسیر اثر رو راحتتر ببینی، نه اینکه فکر کنی لازمه مدل درست کار کنه.
۲- حواست باشه ضرایب تعامل یا ضریب اول رگرسیون، لزوماً اثر اصلی رو نشون نمیدن، چه وسطگیری کرده باشی چه نکرده باشی. بعداً هر چی تفسیر کردی به همین مسئله ربط داره!
۳- اگه دنبال مقایسه اثرات مختلفی یا میخوای ببینی هر متغیر چقدر مستقل تاثیر داره، ضرایب sr رو هم نگاه کن.
در کل، یکی از اون باورهایی که سالها همه فکر میکردن جزو قوانین رگرسیون بوده، داره کمرنگ میشه! پس بعد از این، هروقت استاد یا رئیس پروژه گفت «حتماً قبل تحلیل وسطگیری کن!» یه لبخند بزن و با اعتماد به نفس نظر جدید براش توضیح بده
منبع: +