چطور با روش‌های خفن و هوشمند جدید، سایت‌های فیشینگ رو خیلی دقیق‌تر شناسایی کنیم!

اگه اهل اینترنت گردی باشی، حتما اسم فیشینگ به گوشت خورده؛ همون روشی که هکرها باهاش می‌خوان اطلاعات مهم آدمارو بدزدن. فیشینگ یا Phishing یعنی یکی یه سایت قلابی درست می‌کنه که خیلی شبیه سایت اصلیه، بعدشم سعی می‌کنه اطلاعات مثل پسورد، کارت بانکی، یا هرچی که به دردش می‌خوره رو، از مردم کش بره.

تا الان خیلی از سیستم‌های شناسایی سایت‌های فیشینگ (Phishing Website Detection یا همون PWD) اومدن و سعی کردن با بررسی لینک سایت‌ها (URL) یا ساختار صفحاتشون (DOM Tree Structure یعنی همون استخون‌بندی کدهای صفحه)، فیشینگ‌ها رو کشف کنن. ولی خب چون این سایتای قلابی دستشون تو کپی کردن خیلی تنده، معمولا از زیر دست این روشا در می‌رن و نتیجه شناسایی هم دقیق درنمیاد.

حالا یه تیم اومده دست به ابتکار زده و با ترکیب چند روش باحال و جدید، یه سیستم ساخته که سایت‌های فیشینگ و غیرقابل شناسایی رو راحت می‌گیره! بذارین با یه زبان ساده توضیح بدم کارشون چیه:

اول از همه، کلی لینک جمع‌آوری می‌کنن که داخل دیتاست‌های سایت‌های فیشینگ هست. بعدش این لینکارو تبدیل به کد HTML می‌کنن (HTML یعنی همون زبون اصلی ساخت صفحات وب)، و باهاش یک ساختار DOM می‌سازن. DOM، خلاصه‌اش یعنی “درخت مدارک صفحه” که نشون می‌ده عناصر مختلف توی صفحه چجوری کنار هم قرار گرفتن.

بعد وارد فاز جالبش می‌شن: میان از این داده‌ها المان‌ها یا همون اجزای سایت رو استخراج می‌کنن، و چندتا آیتم مهم دیگه رو هم چک می‌کنن، مثلاً ویژگی‌های پردازش زبان طبیعی یا NLP (یعنی بررسی معنی و مفهوم متن‌ها تو سایت)، اطلاعات مربوط به ورود (credentials)، تشابه لینک‌ها (URL) و عناصر، و در کل ویژگی‌های داخلی هر سایت.

اینجا یه جور مدل خاص با اسم FH-BERT وارد میشه! FH-BERT یعنی ترکیب Feature Hasher و BERT، که BERT هم همون مدل معروف هوش مصنوعیه که خیلی خوب می‌تونه متن رو بفهمه و تفسیر کنه؛ باهاش المان‌های DOM تبدیل می‌شه به یه سری امتیاز و عدد که قابل بررسی هستن.

این امتیازها با اطلاعات دیگه ترکیب می‌شن، ولی هنوز همه‌چی شسته‌رفته نیست. باید از بین همه ویژگی‌ها، بهترین و مهم‌تریناش انتخاب بشن؛ برای این کار از یه الگوریتم خفن و جدید به اسم Entropy-based Chameleon Swarm Algorithm (ECSA) استفاده می‌کنن. اگه بخوام خلاصه بگم، این الگوریتم یه جور روش هوشمنده برای جداکردن ویژگی‌های ارزشمند از بین حجم زیاد اطلاعات.

خب حالا مرحله آخر: مدل SELU-CRNN وارد صحنه می‌شه! اسمش عجیبه، ولی کارش باحال‌تره. SELU یعنی Scaled Exponential Linear Unit (یه نوع تابع فعال‌سازی در شبکه‌های عصبی که باعث سریع‌تر و بهتر یادگرفتن مدل می‌شه)، و CRNN هم Convolutional Recurrent Neural Network (مدل ترکیبی شبکه‌های عصبی که همزمان هم زمان‌بندی رو می‌فهمه هم الگوها رو تشخیص می‌ده). این مدل‌ها داده‌ها رو دسته‌بندی و پیش‌بینی نهایی رو انجام می‌دن.

نتیجه‌ش واقعا جالبه: این سیستم تونسته به دقت بالای ۹۸.۴۲٪ برسه و زمان آموزش مدل رو به ۶۳،۰۰۳ میلی‌ثانیه برسونه که نسبت به بقیه روش‌ها سریع‌تر و دقیق‌تره.

در کل، این روش جدید چون هم اجزای صفحه سایت (components)، هم ویژگی‌های معنایی (یعنی معنی و مفهوم متن)، و هم ساختار سایتو باهم ترکیب می‌کنه، خیلی قوی‌تر و امن‌تر از بقیه کار می‌کنه و می‌تونه توی تشخیص سایت‌های فیشینگ بهمون حسابی کمک کنه!

اگه بخوام جمع‌بندی کنم: ترکیب این الگوریتم‌های پیشرفته و دقیق، یعنی خیالت بابت شناسایی سایتای قلابی خیلی راحت‌تر میشه. دیگه هکرها نمی‌تونن اونقدر راحت با سایت فیک گولت بزنن!

منبع: +