دنیای دسته‌بندی پیام‌های سوئیفت: ترکیب قوانین و هوش مصنوعی برای کشف رفقای معامله

اگه تا حالا با سیستم پرداخت بانکی مثل SWIFT سروکار داشتی (همون سیستمی که بانک‌ها باهاش بین هم پول جابجا می‌کنن)، حتماً می‌دونی بخش بزرگی از کار، پیدا کردن طرف‌های معامله است. یعنی بفهمی کی پولِ کی رو گرفته و اصل قصه چیه. حالا، کار وقتی سخت‌تر میشه که این اطلاعات رو آدم‌ها دستی وارد می‌کنن! مثلا اسم شرکت‌ها یا اشخاص یا حتی آدرس‌ها رو وارد می‌کنن و خب پر از غلط املایی و تنوع و شلوغ‌بازی میشه.

اینجا دیگه پای NLP یا همون پردازش زبان طبیعی (یعنی هوش مصنوعی‌ای که متن‌ها رو می‌فهمه) که مثلا تو توییتر یا پیامک‌ها جواب میده، به میدون نمی‌رسه. چون این پیام‌ها خیلی کوتاه و بدون ساختار خاصی هستن و معلوم نیست دقیق چی میگن.

کلاً توی چه جریانیه؟ آدم‌ها و سازمان‌هایی که کارشون رسیدگی به تقلب مالی یا بررسی تراکنش‌هاست، همیشه دنبال راه‌هایی هستن که بتونن این طرف‌های معامله رو درست‌تر شناسایی کنن. شرکت‌ها هم معمولاً میان سراغ راز و رمزهایی مثل fuzzy matching (یعنی تطبیق تقریبی؛ اینکه بتونی حتی وقتی نوشته شده “مبین انرژی” و “م.ب.ا. انرژی” متوجه شی منظور همونه) ولی خب این همیشه دقیق نیست و ممکنه یه چیزی رو از دست بدی، یا اشتباه بزنی.

حالا اگه بخوایم درست و حسابی طرف‌های معامله رو کنار هم بزاریم (که تو علم داده بهش میگن Clustering یعنی خوشه‌بندی)، باید هوشمندانه‌تر عمل کنیم. تو این مقاله که داریم راجع بهش حرف می‌زنیم، نویسنده‌ها یه روش ترکیبی پیشنهاد دادن: هم شباهت متنی را حساب میکنن، هم موضوع‌بندی می‌کنن (یعنی Topic Modeling؛ اینکه هر پیام درباره چه موضوعی می‌تونه باشه)، بعد میان سراغ الگوریتم‌های hierarchical clustering (یعنی یه جور دسته‌بندی سلسله‌مراتبی که اول کلی دسته درست، بعد تو هر دسته ریزتر میشه) و در آخر هم قوانینی تعریف می‌کنن که همه اینا رو کنار هم بچینن.

خوبی این مدل اینه که تعداد دسته‌ها (یعنی چند تا گروه مختلف داریم) از قبل مشخص نباشه و سیستم خودش اینو تشخیص بده. تازه برای اینکه ببینن روششون واقعاً بهتره یا نه، از معیارهای علمی مثل Precision و Recall هم استفاده کردن (Precision یعنی چند درصد جواب‌هات دقیقاً درست بودن و Recall یعنی چند درصد از جواب‌های درست کل، پیدا شدن). وقتی این مدل رو با داده واقعی – نه آزمایشگاهی – تست کردن، دیدن نسبت به مدل‌های سنتی که فقط با کلیدواژه و قانون کار می‌کنن، خیلی بهتر جواب میده.

از همه بهترش اینکه این راهکار هنوزم مثل سیستم‌های قانون‌محور قابل تفسیره؛ یعنی اگه یه دسته‌بندی اتفاق افتاده باشه، می‌تونی بفهمی چرا و چجوری. و چون دقتش بالاتر رفته، حجم کار دستی (مثلا اینکه آدم بشینه تک تک پیام‌ها رو بخونه) هم حسابی کم میشه.

یه نکته خیلی مهم دیگه هم داره؛ فرض کن که فقط یک بخش از داده‌ها مهم باشه (مثلاً فقط اونا که ریسک تحریم یا پولشویی دارن). این رویکرد می‌تونه با زیرنظر گرفتن شکل‌های مختلف نوشته‌شدن اسامی، ریسک اینکه یه مورد رو ندیده بگیری خیلی کمتر کنه. خلاصه با ترکیب هوش مصنوعی و قوانین قدیمی، هم بهتر دسته‌بندی میشه هم تفسیر نتایج راحت‌تر و سریع‌تره!

منبع: +