تا حالا فکر کردی چقدر کلاهبردارها خلاق و زرنگ شدن و چطور هر روز راههای جدیدتری پیدا میکنن تا تو دنیای مالی و بانکی سر ملت رو کلاه بذارن؟ واقعاً ماموریت سختیه که بتونیم با این ترفندها مقابله کنیم و جلوی ضررهای مالی بزرگ رو بگیریم. به خاطر همین، نیاز داریم مدلهایی داشته باشیم که دقیق، قوی و قابل اعتماد باشن تا بتونن کلاهبرداری با کارت اعتباری رو تشخیص بدن.
توی این تحقیق، اومدن چندتا مدل مختلف رو برای شناسایی کلاهبرداری بررسی کردن. مدلهایی مثل Logistic Regression (که یک مدل آماریاس و میاد احتمال رخ دادن یک اتفاق رو پیشبینی میکنه)، Decision Tree (درخت تصمیم، یه جور مدل که بر اساس سوال و جواب میره جلو تا تصمیمگیری کنه)، و Random Forest (این یکی با ترکیب کلی درخت تصمیم کار میکنه و واسه همین معمولاً دقیقتر از بقیهس). این مدلها رو روی دیتاستهای واقعی از تراکنشهای کارت بانکی امتحان کردن.
یک مشکل اساسی تو این جور کارها اینه که تراکنشهای کلاهبرداری خیلی کم هستن نسبت به کل تراکنشها؛ به این میگن Class Imbalance یعنی عدم توازن بین دو گروه؛ یه گروه که تعدادش کمه (کلاهبرداری) و یه گروه زیاد (تراکنش معمولی). واسه حل این مشکل، از روشی به اسم SMOTE استفاده کردن. SMOTE یعنی Synthetic Minority Over-Sampling Technique که کارش اینه با ساختن نمونههای مصنوعی، بالانس بین کلاسها رو درست کنه تا مدلها بهتر آموزش ببینن.
همچنین، تو این تحقیق اومدن یه مدل Deep Learning هم ساختن (Deep Learning یعنی یادگیری عمیق؛ مدلهایی که ساختارشون پیچیدهتر و الهامگرفته از مغز انسانه و معمولاً تو کارهای خیلی سخت مثل تشخیص چهره یا ترجمه قویتر کار میکنن) و از یک ترفند به اسم Focal Loss استفاده کردن. این Focal Loss باعث میشه مدل بیشتر تمرکزش رو بذاره روی نمونههایی که تشخیصشون سختتره؛ یعنی تراکنشهایی که احتمال کلاهبرداریشون گمراهکنندهتره. اینطوری مدل میتونه تو پیدا کردن تقلبهای ریز و خطرناک قویتر بشه.
اما بریم سراغ نتایج؛ مدل Random Forest حسابی ترکوند و تونست به یک دقت خارقالعاده یعنی 99.95٪ برسه! امتیاز F1 (که یه جور میانگین نسبتهای دقت و یادآوریه، برای وقتی که دادهها نامتوازن هستن خیلی مهمه) حدود 0.8256 شد و امتیاز ROC-AUC (یه معیار برای اینکه ببینیم مدل تو جدا کردن کلاسها چقدر خوبه) به 0.9759 رسید. مدل یادگیری عمیق هم تونست دقیقترین تشخیص رو (Precision بالا) بده، یعنی کمتر اشتباهی کسی رو بیخود متهم به تقلب کنه.
یکی از کارهای جدیدی که این مقاله انجام داد این بود که برای اولین بار ترکیب Focal Loss رو تو مدل یادگیری عمیق تست کرد. این به مدل کمک کرد تمرکزش رو روی تراکنشهای خاصتر بذاره. جالبه بدونی بیشتر تحقیقات مشابه فقط رو دیتاست معروف Kaggle (یه سایت معروف دیتاست برای تمرین هوش مصنوعی) کار کردن، ولی این گروه کارشون رو هم روی دیتاهای واقعی کارت اعتباری Kaggle و هم روی دیتاست PaySim (یه دیتاست شبیهسازیشده برای سرویسهای مالی موبایل) تست کردن تا مطمئن بشن مدلشون تو دنیای واقعی هم جواب میده.
در نهایت، نتیجه این شد که اگه قبل از آموزش مدل، حسابی دادهها رو آمادهسازی و کلاسها رو بالانس کنی و تنظیمات مدل رو هم خوب تنظیم کنی (که بهش میگن Hyperparameter Tuning)، ترکیب مدلهای قدیمی و جدید میتونه جلوی کلی ضرر مالی رو بگیره و کلاهبرداریها رو حتی تو شرایط سخت و ناشناخته شکار کنه.
خلاصهاش؟ اگر بانکها بخوان جلوی زرنگبازی کلاهبردارها رو بگیرن، باید به همین روشها و ترکیبات علمی و هوشمند اتکا کنن؛ هم یادگیری سنتی، هم مدرن، هم فوت و فن توازن داده!
منبع: +