اگه اهل اینترنت گردی باشی، حتما اسم فیشینگ به گوشت خورده؛ همون روشی که هکرها باهاش میخوان اطلاعات مهم آدمارو بدزدن. فیشینگ یا Phishing یعنی یکی یه سایت قلابی درست میکنه که خیلی شبیه سایت اصلیه، بعدشم سعی میکنه اطلاعات مثل پسورد، کارت بانکی، یا هرچی که به دردش میخوره رو، از مردم کش بره.
تا الان خیلی از سیستمهای شناسایی سایتهای فیشینگ (Phishing Website Detection یا همون PWD) اومدن و سعی کردن با بررسی لینک سایتها (URL) یا ساختار صفحاتشون (DOM Tree Structure یعنی همون استخونبندی کدهای صفحه)، فیشینگها رو کشف کنن. ولی خب چون این سایتای قلابی دستشون تو کپی کردن خیلی تنده، معمولا از زیر دست این روشا در میرن و نتیجه شناسایی هم دقیق درنمیاد.
حالا یه تیم اومده دست به ابتکار زده و با ترکیب چند روش باحال و جدید، یه سیستم ساخته که سایتهای فیشینگ و غیرقابل شناسایی رو راحت میگیره! بذارین با یه زبان ساده توضیح بدم کارشون چیه:
اول از همه، کلی لینک جمعآوری میکنن که داخل دیتاستهای سایتهای فیشینگ هست. بعدش این لینکارو تبدیل به کد HTML میکنن (HTML یعنی همون زبون اصلی ساخت صفحات وب)، و باهاش یک ساختار DOM میسازن. DOM، خلاصهاش یعنی “درخت مدارک صفحه” که نشون میده عناصر مختلف توی صفحه چجوری کنار هم قرار گرفتن.
بعد وارد فاز جالبش میشن: میان از این دادهها المانها یا همون اجزای سایت رو استخراج میکنن، و چندتا آیتم مهم دیگه رو هم چک میکنن، مثلاً ویژگیهای پردازش زبان طبیعی یا NLP (یعنی بررسی معنی و مفهوم متنها تو سایت)، اطلاعات مربوط به ورود (credentials)، تشابه لینکها (URL) و عناصر، و در کل ویژگیهای داخلی هر سایت.
اینجا یه جور مدل خاص با اسم FH-BERT وارد میشه! FH-BERT یعنی ترکیب Feature Hasher و BERT، که BERT هم همون مدل معروف هوش مصنوعیه که خیلی خوب میتونه متن رو بفهمه و تفسیر کنه؛ باهاش المانهای DOM تبدیل میشه به یه سری امتیاز و عدد که قابل بررسی هستن.
این امتیازها با اطلاعات دیگه ترکیب میشن، ولی هنوز همهچی شستهرفته نیست. باید از بین همه ویژگیها، بهترین و مهمتریناش انتخاب بشن؛ برای این کار از یه الگوریتم خفن و جدید به اسم Entropy-based Chameleon Swarm Algorithm (ECSA) استفاده میکنن. اگه بخوام خلاصه بگم، این الگوریتم یه جور روش هوشمنده برای جداکردن ویژگیهای ارزشمند از بین حجم زیاد اطلاعات.
خب حالا مرحله آخر: مدل SELU-CRNN وارد صحنه میشه! اسمش عجیبه، ولی کارش باحالتره. SELU یعنی Scaled Exponential Linear Unit (یه نوع تابع فعالسازی در شبکههای عصبی که باعث سریعتر و بهتر یادگرفتن مدل میشه)، و CRNN هم Convolutional Recurrent Neural Network (مدل ترکیبی شبکههای عصبی که همزمان هم زمانبندی رو میفهمه هم الگوها رو تشخیص میده). این مدلها دادهها رو دستهبندی و پیشبینی نهایی رو انجام میدن.
نتیجهش واقعا جالبه: این سیستم تونسته به دقت بالای ۹۸.۴۲٪ برسه و زمان آموزش مدل رو به ۶۳،۰۰۳ میلیثانیه برسونه که نسبت به بقیه روشها سریعتر و دقیقتره.
در کل، این روش جدید چون هم اجزای صفحه سایت (components)، هم ویژگیهای معنایی (یعنی معنی و مفهوم متن)، و هم ساختار سایتو باهم ترکیب میکنه، خیلی قویتر و امنتر از بقیه کار میکنه و میتونه توی تشخیص سایتهای فیشینگ بهمون حسابی کمک کنه!
اگه بخوام جمعبندی کنم: ترکیب این الگوریتمهای پیشرفته و دقیق، یعنی خیالت بابت شناسایی سایتای قلابی خیلی راحتتر میشه. دیگه هکرها نمیتونن اونقدر راحت با سایت فیک گولت بزنن!
منبع: +