یه مدل خفن‌ برای پیدا کردن پرونده‌های حقوقی هند با کمک هوش مصنوعی و خلاصه‌های باحال!

Fall Back

خب بچه‌ها، بیاین یه موضوع جالب رو با هم مرور کنیم: پیدا کردن پرونده‌های مرتبط حقوقی (یعنی اینکه وکیل‌ها یا قضات بتونن راحت‌تر پرونده‌های مشابه رو پیدا کنن) واقعاً کار آسونی نیست. خیلی وقت‌ها روش‌هایی که الان استفاده میشن، فقط دنبال شباهت‌های سطحی و واقعی (یعنی جزئیات خام پرونده‌ها) می‌گردن و به اصل موضوع حقوقی دقت ندارن.

حالا خبر خوب اینه که یه تیم محقق اومده یه روش جدید معرفی کرده و از هوش مصنوعی پیشرفته استفاده کرده؛ همون Large Language Models یا LLMs که می‌تونن متن رو مثل آدم بخونن و حتی بنویسن. هدفشون این بوده که هم پرونده‌های مناسبی که واقعاً به موضوع حقوقی ربط دارن رو سریع‌تر پیدا کنن، هم اینکه خودشون برای اینکه چرا این پرونده مرتبطه، توضیح بدن! (خیلی خفنه، نه؟). جالب‌تر این‌جاست که اصلاً نیاز به کارشناس حقوقی هم نداره؛ یعنی خود سیستم می‌تونه این کارا رو اوتوماتیک انجام بده.

بذار یه اصطلاح باحال رو برات توضیح بدم: “Retrieval Augmented Generation” یا به اختصار RAG، یعنی قرینه‌سازی پیشرفته با تولید محتوا. یعنی اول سیستم می‌ره دنبال اطلاعات واقعی می‌گرده، بعد خودش یه متن یا پاسخ تولید می‌کنه که به درد مخاطب بخوره.

روش این مقاله اسمش هست “Augmented Question-guided Retrieval” یا AQgR. یه جور تکنیکه که توش سیستم براساس سناریوی واقعی هر پرونده، سوالات حقوقی هدفمند تولید می‌کنه تا بفهمه دقیقا باید سراغ کدوم پرونده‌ها بره. یعنی به جای اینکه صرفاً دنبال عبارت، اسم، یا تاریخ باشی، خودش میاد می‌گه: “آیا پرونده‌ای بوده که مثلاً فلان نوع اختلاف یا جرم بوده باشه؟”. این سوالا کمک می‌کنن نتیجه‌ای که پیدا میشه دقیق‌تر و مرتبط‌تر با موضوع اصلی پرونده باشه.

یه بخش جالب دیگه این پروژه، خلاصه‌سازی ساختاریافته است؛ خلاصه‌هایی که برای پرونده‌های حقوقی هند آماده‌کردن رو آوردن، چون هیچ دیتاست آماده‌ای برای چنین خلاصه‌هایی وجود نداشت، مجبورن خلاصه‌ها رو خودشون آماده کنن و بعد بدن چند تا متخصص حقوقی که بررسی کنه ببینه اوکی هست یا نه.

برای اینکه روششون رو تست کنن، از دیتاست FIRE استفاده کردن (FIRE یه مجموعه‌داده معروف تو حوزه اطلاعات حقوقی هند هست). خلاصه اینکه حتی کارشناس‌های حقوقی اومدن خروجی و توضیحاتی که سیستم تولید کرده رو ارزیابی کردن؛ چون اضافه کردن توضیح برای نتیجه‌ی جستجو هنوز ایده‌ای نسبتاً جدیده.

حالا نتیجه رو بخوام بگم، سیستمشون رو روی یه بخش از دیتاست FIRE 2019 تست کردن و عددهای جالبی گرفتن: شاخص دقت میانگین یا MAP شد 0.36 و شاخص بازخوانی میانگین یا MAR هم رسید به 0.67. جالب اینه که قبلش بهترین MAP فقط 0.1573 بوده! یعنی روش جدید تقریباً دو برابر شده — حسابی بهتره.

در کل این تجربه نشون داده که وقتی از جستجو بر پایه داده‌های واقعی میایم به سمت جستجو بر اساس موضوعات حقوقی میریم، نتیجه‌ها خیلی به دردبخورتر و نزدیک‌تر به اون چیزی میشن که وکیل‌ها و بچه‌های حقوقی واقعاً می‌خوان. مخصوصاً اینکه توی این روش AQgR این امکان هست که سوالات درست و حسابی هم وارد فرآیند جستجو بشه و اینجوری جواب‌هایی که سیستم پیدا می‌کنه، حسابی باحال، دقیق و کاربردیه!

پس اگه یک روزی دیدین اپلیکیشن یا سیستمی اومد و گفت من برات پرونده حقوقی مشابه پیدا می‌کنم و برات توضیح هم می‌دم چرا، بدونین این پشتش هوش مصنوعی و کلی تلاش بچه‌های تحقیقاتی هست!

منبع: +