معرفی LegNER: هوش مصنوعی باحال برای شناختن اسامی تو متن‌های حقوقی و مخفی کردن اطلاعات حساس!

اگه سری به دنیای حقوق و قانون زده باشی، حتماً می‌دونی که متون حقوقی پر از اطلاعات حساس و اسامی خاص هستن. از طرفی، کلی تقاضا هست که این متون به صورت اتوماتیک پردازش بشن، هم مقیاس‌پذیر باشه (یعنی بشه تعداد زیادی سند رو با هم سریع پردازش کرد) هم حریم خصوصی افراد حفظ بشه. اینجاست که بحث سیستم‌های NER خیلی داغ میشه. راستی، NER مخفف Named Entity Recognition هست، یعنی تشخیص اسامی خاص تو متن؛ مثلاً تشخیص اینکه “علی” یک شخصیه یا یه جای دیگه اسمی به چشم می‌خوره که باید شناسایی بشه.

حالا خبر خوب اینه که یه مدل جالب و تازه به اسم LegNER معرفی شده که حسابی برای حوزه حقوقی ساخته و بهینه‌س. LegNER بر پایه Transformerها کار می‌کنه (یعنی اون سیستم‌های هوشمندی که الان بیشتر مدل‌های هوش مصنوعی متن مثل ChatGPT هم ازشون استفاده می‌کنن) و هدفش اینه که تو دو تا کار گل بزنه: یکی تشخیص اسامی تو متن‌های حقوقی و دومی مخفی کردن (یا به‌اصطلاح آنونیم‌سازی) اطلاعات حساس تو این متون.

چی کار کرده؟ محقق‌ها اومدن مدل معروف BERT-base رو گرفتن و کلی قبلش با متون حقوقی آموزش دادن، یعنی بهش اصطلاحات و حال‌وهوای دادگاها رو یاد دادن. تازه بعدش هم روی دیتاست ۱۵۴۲ پرونده دادگاهی واقعی (که دستی هم برچسب‌گذاری شده) مدل رو حسابی تمرین دادن و یک سری لغت‌نامه تخصصی حقوقی هم اضافه کردن که مدل به راحتی اسامی تخصصی رو هم پیدا کنه.

مدل LegNER از پس تشخیص شش نوع اسم تخصصی تو حوزه حقوقی به‌خوبی برمیاد. مثل چی؟ مثل: PERSON (یعنی آدم‌ها)، ORGANIZATION (سازمان‌ها)، LAW (قوانین)، و CASE_REFERENCE (ارجاع به پرونده). خلاصه هر چی باید تو یه پرونده محرمانه بمونه یا باید شناسایی بشه، LegNER پیداش می‌کنه و می‌تونه قشنگ مخفیش کنه.

اما خبر خفن‌تر اینه که تو آزمایش‌ها نشون دادن LegNER نسبت به بقیه مدل‌های حقوقی NER هم بهتر عمل می‌کنه، یعنی هم دقیق‌تره هم سریع‌تر. عدد می‌خوای؟ دقتش رفته روی ۹۹٪، امتیاز F1 (که یه معیار جامع برای سنجش کیفیت مدل‌هاس) بالای ۹۹٪ شده و سرعتش هم جوریه که می‌تونه بیش از ۱۲ سند رو تو هر ثانیه پردازش کنه! یعنی عملاً برای کار در مقیاس بالا هم جواب میده و میشه روش حساب کرد.

یکی دیگه از چیزای باحال LegNER اینه که خروجی‌های آنونیم‌شده (یعنی متنی که اطلاعات حساسش مخفی شده) خیلی منسجم و طبیعی درمیاد. این موضوع خیلی مهمه، مخصوصاً برای رعایت قوانین GDPR (همون قانون حفاظت از داده‌های اتحادیه اروپا که روی حفظ حریم خصوصی افراد تاکید داره). یعنی شرکت‌ها یا سازمان‌هایی که با اطلاعات حساس سر و کار دارن، با خیال راحت می‌تونن از LegNER استفاده کنن و مطمئن باشن هم دقت دارن و هم قوانین رو رعایت کردن.

در کل، LegNER رو میشه یکی از بهترین راه‌حل‌ها برای اونایی دونست که دنبال یه مدل دقیق، سریع و قابل‌اعتماد برای تشخیص اسم‌ها و آنونیمیزه کردن متون تو حوزه حقوقی هستن. مخصوصاً جاهایی که حساسیت زیادی روی حفظ اطلاعات هست. واقعاً آدم لذت می‌بره که ببینه هوش مصنوعی داره اینقدر عملی به درد دنیای حقوق و حفظ حریم خصوصی می‌خوره!

منبع: +