اگه تا حالا با سیستم پرداخت بانکی مثل SWIFT سروکار داشتی (همون سیستمی که بانکها باهاش بین هم پول جابجا میکنن)، حتماً میدونی بخش بزرگی از کار، پیدا کردن طرفهای معامله است. یعنی بفهمی کی پولِ کی رو گرفته و اصل قصه چیه. حالا، کار وقتی سختتر میشه که این اطلاعات رو آدمها دستی وارد میکنن! مثلا اسم شرکتها یا اشخاص یا حتی آدرسها رو وارد میکنن و خب پر از غلط املایی و تنوع و شلوغبازی میشه.
اینجا دیگه پای NLP یا همون پردازش زبان طبیعی (یعنی هوش مصنوعیای که متنها رو میفهمه) که مثلا تو توییتر یا پیامکها جواب میده، به میدون نمیرسه. چون این پیامها خیلی کوتاه و بدون ساختار خاصی هستن و معلوم نیست دقیق چی میگن.
کلاً توی چه جریانیه؟ آدمها و سازمانهایی که کارشون رسیدگی به تقلب مالی یا بررسی تراکنشهاست، همیشه دنبال راههایی هستن که بتونن این طرفهای معامله رو درستتر شناسایی کنن. شرکتها هم معمولاً میان سراغ راز و رمزهایی مثل fuzzy matching (یعنی تطبیق تقریبی؛ اینکه بتونی حتی وقتی نوشته شده “مبین انرژی” و “م.ب.ا. انرژی” متوجه شی منظور همونه) ولی خب این همیشه دقیق نیست و ممکنه یه چیزی رو از دست بدی، یا اشتباه بزنی.
حالا اگه بخوایم درست و حسابی طرفهای معامله رو کنار هم بزاریم (که تو علم داده بهش میگن Clustering یعنی خوشهبندی)، باید هوشمندانهتر عمل کنیم. تو این مقاله که داریم راجع بهش حرف میزنیم، نویسندهها یه روش ترکیبی پیشنهاد دادن: هم شباهت متنی را حساب میکنن، هم موضوعبندی میکنن (یعنی Topic Modeling؛ اینکه هر پیام درباره چه موضوعی میتونه باشه)، بعد میان سراغ الگوریتمهای hierarchical clustering (یعنی یه جور دستهبندی سلسلهمراتبی که اول کلی دسته درست، بعد تو هر دسته ریزتر میشه) و در آخر هم قوانینی تعریف میکنن که همه اینا رو کنار هم بچینن.
خوبی این مدل اینه که تعداد دستهها (یعنی چند تا گروه مختلف داریم) از قبل مشخص نباشه و سیستم خودش اینو تشخیص بده. تازه برای اینکه ببینن روششون واقعاً بهتره یا نه، از معیارهای علمی مثل Precision و Recall هم استفاده کردن (Precision یعنی چند درصد جوابهات دقیقاً درست بودن و Recall یعنی چند درصد از جوابهای درست کل، پیدا شدن). وقتی این مدل رو با داده واقعی – نه آزمایشگاهی – تست کردن، دیدن نسبت به مدلهای سنتی که فقط با کلیدواژه و قانون کار میکنن، خیلی بهتر جواب میده.
از همه بهترش اینکه این راهکار هنوزم مثل سیستمهای قانونمحور قابل تفسیره؛ یعنی اگه یه دستهبندی اتفاق افتاده باشه، میتونی بفهمی چرا و چجوری. و چون دقتش بالاتر رفته، حجم کار دستی (مثلا اینکه آدم بشینه تک تک پیامها رو بخونه) هم حسابی کم میشه.
یه نکته خیلی مهم دیگه هم داره؛ فرض کن که فقط یک بخش از دادهها مهم باشه (مثلاً فقط اونا که ریسک تحریم یا پولشویی دارن). این رویکرد میتونه با زیرنظر گرفتن شکلهای مختلف نوشتهشدن اسامی، ریسک اینکه یه مورد رو ندیده بگیری خیلی کمتر کنه. خلاصه با ترکیب هوش مصنوعی و قوانین قدیمی، هم بهتر دستهبندی میشه هم تفسیر نتایج راحتتر و سریعتره!
منبع: +