نشت داده‌ها در مرحله پیش‌پردازش: یک راهنمای تصویری

این مقاله به بررسی مسئله حیاتی نشت داده‌ها (Data Leakage) در مرحله پیش‌پردازش یادگیری ماشین می‌پردازد و بر چگونگی تأثیر مراحل به ظاهر بی‌خطر بر افزایش مصنوعی عملکرد مدل و منجر شدن به نتایج ناامیدکننده در دنیای واقعی تمرکز دارد. این مقاله تأکید می‌کند که مراحل پیش‌پردازش مانند جایگذاری مقادیر از دست رفته (Imputation)، مقیاس‌بندی (Scaling) و مهندسی ویژگی (Feature Engineering) باید *پس از* تقسیم داده‌ها به مجموعه‌های آموزشی و آزمایشی اعمال شوند.

مشکل اصلی این است که اگر پیش‌پردازش روی کل مجموعه داده‌ها قبل از تقسیم انجام شود، اطلاعات مجموعه آزمایشی می‌تواند به مجموعه آموزشی “نشت” کند. این امر به مدل در طول آموزش یک مزیت ناعادلانه می‌دهد، زیرا به‌طور غیرمستقیم از مجموعه آزمایشی اطلاعات کسب می‌کند. این مقاله این مفهوم را با تصاویر واضح و مثال‌های کد عملی با استفاده از مجموعه داده‌های تایتانیک نشان می‌دهد و نحوه وقوع نشت در سناریوهای رایج مانند موارد زیر را شرح می‌دهد:

* جایگذاری مقادیر از دست رفته (Imputation): استفاده از *میانگین* یا *میانه* کل مجموعه داده‌ها برای جایگذاری مقادیر از دست رفته، اجازه می‌دهد تا داده‌های آموزشی تحت تأثیر توزیع داده‌های آزمایشی قرار بگیرند.
* مقیاس‌بندی ویژگی (Feature Scaling): اعمال تکنیک‌های مقیاس‌بندی مانند استانداردسازی یا نرمال‌سازی روی کل مجموعه داده‌ها به‌طور مشابه اجازه می‌دهد تا داده‌های آموزشی تحت تأثیر محدوده و توزیع مجموعه آزمایشی قرار گیرند.
* رمزگذاری یک‌خودی (One-hot Encoding): اگر ویژگی‌های دسته‌بندی قبل از تقسیم رمزگذاری شوند، دسته‌های نادری که در مجموعه آزمایشی وجود دارند ممکن است بر طرح رمزگذاری اعمال شده بر روی مجموعه آموزشی تأثیر بگذارند.

این مقاله راه‌حل‌های روشنی برای جلوگیری از نشت داده‌ها ارائه می‌دهد و بر اهمیت اعمال مراحل پیش‌پردازش *فقط* بر روی داده‌های آموزشی و سپس استفاده از تبدیل‌گرهای آموزش دیده برای تبدیل داده‌های آزمایشی تأکید می‌کند. این امر تضمین می‌کند که مدل بر روی داده‌های واقعاً دیده نشده ارزیابی می‌شود و عملکرد واقعی آن را منعکس می‌کند. همچنین به‌طور خلاصه به اعتبارسنجی متقابل و نحوه جلوگیری از نشت در آن زمینه اشاره می‌کند.

اگر با مدل‌های یادگیری ماشین کار می‌کنید و می‌خواهید مطمئن شوید که معیارهای ارزیابی شما به‌طور دقیق عملکرد دنیای واقعی را منعکس می‌کنند، درک و جلوگیری از نشت داده‌ها بسیار مهم است. این مقاله مقدمه‌ای کاربردی و قابل فهم برای این موضوع مهم ارائه می‌دهد و آن را به خواندنی ارزشمند برای مبتدیان و متخصصان باتجربه تبدیل می‌کند.

اگر به خواندن کامل این مطلب علاقه‌مندید، روی لینک مقابل کلیک کنید: towardsdatascience.com