جلوگیری از کلاهبرداری کارت بانکی با ترفندهای هوش مصنوعی: هم مدل‌های سنتی، هم عمیق!

تا حالا فکر کردی چقدر کلاه‌بردارها خلاق و زرنگ شدن و چطور هر روز راه‌های جدیدتری پیدا می‌کنن تا تو دنیای مالی و بانکی سر ملت رو کلاه بذارن؟ واقعاً ماموریت سختیه که بتونیم با این ترفندها مقابله کنیم و جلوی ضررهای مالی بزرگ رو بگیریم. به خاطر همین، نیاز داریم مدل‌هایی داشته باشیم که دقیق، قوی و قابل اعتماد باشن تا بتونن کلاهبرداری با کارت اعتباری رو تشخیص بدن.

توی این تحقیق، اومدن چندتا مدل مختلف رو برای شناسایی کلاهبرداری بررسی کردن. مدل‌هایی مثل Logistic Regression (که یک مدل آماری‌اس و میاد احتمال رخ دادن یک اتفاق رو پیش‌بینی می‌کنه)، Decision Tree (درخت تصمیم، یه جور مدل که بر اساس سوال و جواب میره جلو تا تصمیم‌گیری کنه)، و Random Forest (این یکی با ترکیب کلی درخت تصمیم کار می‌کنه و واسه همین معمولاً دقیق‌تر از بقیه‌س). این مدل‌ها رو روی دیتاست‌های واقعی از تراکنش‌های کارت بانکی امتحان کردن.

یک مشکل اساسی تو این جور کارها اینه که تراکنش‌های کلاهبرداری خیلی کم هستن نسبت به کل تراکنش‌ها؛ به این میگن Class Imbalance یعنی عدم توازن بین دو گروه؛ یه گروه که تعدادش کمه (کلاهبرداری) و یه گروه زیاد (تراکنش معمولی). واسه حل این مشکل، از روشی به اسم SMOTE استفاده کردن. SMOTE یعنی Synthetic Minority Over-Sampling Technique که کارش اینه با ساختن نمونه‌های مصنوعی، بالانس بین کلاس‌ها رو درست کنه تا مدل‌ها بهتر آموزش ببینن.

همچنین، تو این تحقیق اومدن یه مدل Deep Learning هم ساختن (Deep Learning یعنی یادگیری عمیق؛ مدل‌هایی که ساختارشون پیچیده‌تر و الهام‌گرفته از مغز انسانه و معمولاً تو کارهای خیلی سخت مثل تشخیص چهره یا ترجمه قوی‌تر کار می‌کنن) و از یک ترفند به اسم Focal Loss استفاده کردن. این Focal Loss باعث میشه مدل بیشتر تمرکزش رو بذاره روی نمونه‌هایی که تشخیصشون سخت‌تره؛ یعنی تراکنش‌هایی که احتمال کلاهبرداریشون گمراه‌کننده‌تره. اینطوری مدل می‌تونه تو پیدا کردن تقلب‌های ریز و خطرناک قوی‌تر بشه.

اما بریم سراغ نتایج؛ مدل Random Forest حسابی ترکوند و تونست به یک دقت خارق‌العاده یعنی 99.95٪ برسه! امتیاز F1 (که یه جور میانگین نسبت‌های دقت و یادآوریه، برای وقتی که داده‌ها نامتوازن هستن خیلی مهمه) حدود 0.8256 شد و امتیاز ROC-AUC (یه معیار برای اینکه ببینیم مدل تو جدا کردن کلاس‌ها چقدر خوبه) به 0.9759 رسید. مدل یادگیری عمیق هم تونست دقیق‌ترین تشخیص رو (Precision بالا) بده، یعنی کمتر اشتباهی کسی رو بی‌خود متهم به تقلب کنه.

یکی از کارهای جدیدی که این مقاله انجام داد این بود که برای اولین بار ترکیب Focal Loss رو تو مدل یادگیری عمیق تست کرد. این به مدل کمک کرد تمرکزش رو روی تراکنش‌های خاص‌تر بذاره. جالبه بدونی بیشتر تحقیقات مشابه فقط رو دیتاست معروف Kaggle (یه سایت معروف دیتاست برای تمرین هوش مصنوعی) کار کردن، ولی این گروه کارشون رو هم روی دیتاهای واقعی کارت اعتباری Kaggle و هم روی دیتاست PaySim (یه دیتاست شبیه‌سازی‌شده برای سرویس‌های مالی موبایل) تست کردن تا مطمئن بشن مدلشون تو دنیای واقعی هم جواب می‌ده.

در نهایت، نتیجه این شد که اگه قبل از آموزش مدل، حسابی داده‌ها رو آماده‌سازی و کلاس‌ها رو بالانس کنی و تنظیمات مدل رو هم خوب تنظیم کنی (که بهش میگن Hyperparameter Tuning)، ترکیب مدل‌های قدیمی و جدید می‌تونه جلوی کلی ضرر مالی رو بگیره و کلاهبرداری‌ها رو حتی تو شرایط سخت و ناشناخته شکار کنه.

خلاصه‌اش؟ اگر بانک‌ها بخوان جلوی زرنگ‌بازی کلاهبردارها رو بگیرن، باید به همین روش‌ها و ترکیبات علمی و هوشمند اتکا کنن؛ هم یادگیری سنتی، هم مدرن، هم فوت و فن توازن داده!

منبع: +