اگه سری به دنیای حقوق و قانون زده باشی، حتماً میدونی که متون حقوقی پر از اطلاعات حساس و اسامی خاص هستن. از طرفی، کلی تقاضا هست که این متون به صورت اتوماتیک پردازش بشن، هم مقیاسپذیر باشه (یعنی بشه تعداد زیادی سند رو با هم سریع پردازش کرد) هم حریم خصوصی افراد حفظ بشه. اینجاست که بحث سیستمهای NER خیلی داغ میشه. راستی، NER مخفف Named Entity Recognition هست، یعنی تشخیص اسامی خاص تو متن؛ مثلاً تشخیص اینکه “علی” یک شخصیه یا یه جای دیگه اسمی به چشم میخوره که باید شناسایی بشه.
حالا خبر خوب اینه که یه مدل جالب و تازه به اسم LegNER معرفی شده که حسابی برای حوزه حقوقی ساخته و بهینهس. LegNER بر پایه Transformerها کار میکنه (یعنی اون سیستمهای هوشمندی که الان بیشتر مدلهای هوش مصنوعی متن مثل ChatGPT هم ازشون استفاده میکنن) و هدفش اینه که تو دو تا کار گل بزنه: یکی تشخیص اسامی تو متنهای حقوقی و دومی مخفی کردن (یا بهاصطلاح آنونیمسازی) اطلاعات حساس تو این متون.
چی کار کرده؟ محققها اومدن مدل معروف BERT-base رو گرفتن و کلی قبلش با متون حقوقی آموزش دادن، یعنی بهش اصطلاحات و حالوهوای دادگاها رو یاد دادن. تازه بعدش هم روی دیتاست ۱۵۴۲ پرونده دادگاهی واقعی (که دستی هم برچسبگذاری شده) مدل رو حسابی تمرین دادن و یک سری لغتنامه تخصصی حقوقی هم اضافه کردن که مدل به راحتی اسامی تخصصی رو هم پیدا کنه.
مدل LegNER از پس تشخیص شش نوع اسم تخصصی تو حوزه حقوقی بهخوبی برمیاد. مثل چی؟ مثل: PERSON (یعنی آدمها)، ORGANIZATION (سازمانها)، LAW (قوانین)، و CASE_REFERENCE (ارجاع به پرونده). خلاصه هر چی باید تو یه پرونده محرمانه بمونه یا باید شناسایی بشه، LegNER پیداش میکنه و میتونه قشنگ مخفیش کنه.
اما خبر خفنتر اینه که تو آزمایشها نشون دادن LegNER نسبت به بقیه مدلهای حقوقی NER هم بهتر عمل میکنه، یعنی هم دقیقتره هم سریعتر. عدد میخوای؟ دقتش رفته روی ۹۹٪، امتیاز F1 (که یه معیار جامع برای سنجش کیفیت مدلهاس) بالای ۹۹٪ شده و سرعتش هم جوریه که میتونه بیش از ۱۲ سند رو تو هر ثانیه پردازش کنه! یعنی عملاً برای کار در مقیاس بالا هم جواب میده و میشه روش حساب کرد.
یکی دیگه از چیزای باحال LegNER اینه که خروجیهای آنونیمشده (یعنی متنی که اطلاعات حساسش مخفی شده) خیلی منسجم و طبیعی درمیاد. این موضوع خیلی مهمه، مخصوصاً برای رعایت قوانین GDPR (همون قانون حفاظت از دادههای اتحادیه اروپا که روی حفظ حریم خصوصی افراد تاکید داره). یعنی شرکتها یا سازمانهایی که با اطلاعات حساس سر و کار دارن، با خیال راحت میتونن از LegNER استفاده کنن و مطمئن باشن هم دقت دارن و هم قوانین رو رعایت کردن.
در کل، LegNER رو میشه یکی از بهترین راهحلها برای اونایی دونست که دنبال یه مدل دقیق، سریع و قابلاعتماد برای تشخیص اسمها و آنونیمیزه کردن متون تو حوزه حقوقی هستن. مخصوصاً جاهایی که حساسیت زیادی روی حفظ اطلاعات هست. واقعاً آدم لذت میبره که ببینه هوش مصنوعی داره اینقدر عملی به درد دنیای حقوق و حفظ حریم خصوصی میخوره!
منبع: +