این مقاله به بررسی مسئله حیاتی نشت دادهها (Data Leakage) در مرحله پیشپردازش یادگیری ماشین میپردازد و بر چگونگی تأثیر مراحل به ظاهر بیخطر بر افزایش مصنوعی عملکرد مدل و منجر شدن به نتایج ناامیدکننده در دنیای واقعی تمرکز دارد. این مقاله تأکید میکند که مراحل پیشپردازش مانند جایگذاری مقادیر از دست رفته (Imputation)، مقیاسبندی (Scaling) و مهندسی ویژگی (Feature Engineering) باید *پس از* تقسیم دادهها به مجموعههای آموزشی و آزمایشی اعمال شوند.
مشکل اصلی این است که اگر پیشپردازش روی کل مجموعه دادهها قبل از تقسیم انجام شود، اطلاعات مجموعه آزمایشی میتواند به مجموعه آموزشی “نشت” کند. این امر به مدل در طول آموزش یک مزیت ناعادلانه میدهد، زیرا بهطور غیرمستقیم از مجموعه آزمایشی اطلاعات کسب میکند. این مقاله این مفهوم را با تصاویر واضح و مثالهای کد عملی با استفاده از مجموعه دادههای تایتانیک نشان میدهد و نحوه وقوع نشت در سناریوهای رایج مانند موارد زیر را شرح میدهد:
* جایگذاری مقادیر از دست رفته (Imputation): استفاده از *میانگین* یا *میانه* کل مجموعه دادهها برای جایگذاری مقادیر از دست رفته، اجازه میدهد تا دادههای آموزشی تحت تأثیر توزیع دادههای آزمایشی قرار بگیرند.
* مقیاسبندی ویژگی (Feature Scaling): اعمال تکنیکهای مقیاسبندی مانند استانداردسازی یا نرمالسازی روی کل مجموعه دادهها بهطور مشابه اجازه میدهد تا دادههای آموزشی تحت تأثیر محدوده و توزیع مجموعه آزمایشی قرار گیرند.
* رمزگذاری یکخودی (One-hot Encoding): اگر ویژگیهای دستهبندی قبل از تقسیم رمزگذاری شوند، دستههای نادری که در مجموعه آزمایشی وجود دارند ممکن است بر طرح رمزگذاری اعمال شده بر روی مجموعه آموزشی تأثیر بگذارند.
این مقاله راهحلهای روشنی برای جلوگیری از نشت دادهها ارائه میدهد و بر اهمیت اعمال مراحل پیشپردازش *فقط* بر روی دادههای آموزشی و سپس استفاده از تبدیلگرهای آموزش دیده برای تبدیل دادههای آزمایشی تأکید میکند. این امر تضمین میکند که مدل بر روی دادههای واقعاً دیده نشده ارزیابی میشود و عملکرد واقعی آن را منعکس میکند. همچنین بهطور خلاصه به اعتبارسنجی متقابل و نحوه جلوگیری از نشت در آن زمینه اشاره میکند.
اگر با مدلهای یادگیری ماشین کار میکنید و میخواهید مطمئن شوید که معیارهای ارزیابی شما بهطور دقیق عملکرد دنیای واقعی را منعکس میکنند، درک و جلوگیری از نشت دادهها بسیار مهم است. این مقاله مقدمهای کاربردی و قابل فهم برای این موضوع مهم ارائه میدهد و آن را به خواندنی ارزشمند برای مبتدیان و متخصصان باتجربه تبدیل میکند.
اگر به خواندن کامل این مطلب علاقهمندید، روی لینک مقابل کلیک کنید: towardsdatascience.com