خب بچهها، بیاین یه موضوع جالب رو با هم مرور کنیم: پیدا کردن پروندههای مرتبط حقوقی (یعنی اینکه وکیلها یا قضات بتونن راحتتر پروندههای مشابه رو پیدا کنن) واقعاً کار آسونی نیست. خیلی وقتها روشهایی که الان استفاده میشن، فقط دنبال شباهتهای سطحی و واقعی (یعنی جزئیات خام پروندهها) میگردن و به اصل موضوع حقوقی دقت ندارن.
حالا خبر خوب اینه که یه تیم محقق اومده یه روش جدید معرفی کرده و از هوش مصنوعی پیشرفته استفاده کرده؛ همون Large Language Models یا LLMs که میتونن متن رو مثل آدم بخونن و حتی بنویسن. هدفشون این بوده که هم پروندههای مناسبی که واقعاً به موضوع حقوقی ربط دارن رو سریعتر پیدا کنن، هم اینکه خودشون برای اینکه چرا این پرونده مرتبطه، توضیح بدن! (خیلی خفنه، نه؟). جالبتر اینجاست که اصلاً نیاز به کارشناس حقوقی هم نداره؛ یعنی خود سیستم میتونه این کارا رو اوتوماتیک انجام بده.
بذار یه اصطلاح باحال رو برات توضیح بدم: “Retrieval Augmented Generation” یا به اختصار RAG، یعنی قرینهسازی پیشرفته با تولید محتوا. یعنی اول سیستم میره دنبال اطلاعات واقعی میگرده، بعد خودش یه متن یا پاسخ تولید میکنه که به درد مخاطب بخوره.
روش این مقاله اسمش هست “Augmented Question-guided Retrieval” یا AQgR. یه جور تکنیکه که توش سیستم براساس سناریوی واقعی هر پرونده، سوالات حقوقی هدفمند تولید میکنه تا بفهمه دقیقا باید سراغ کدوم پروندهها بره. یعنی به جای اینکه صرفاً دنبال عبارت، اسم، یا تاریخ باشی، خودش میاد میگه: “آیا پروندهای بوده که مثلاً فلان نوع اختلاف یا جرم بوده باشه؟”. این سوالا کمک میکنن نتیجهای که پیدا میشه دقیقتر و مرتبطتر با موضوع اصلی پرونده باشه.
یه بخش جالب دیگه این پروژه، خلاصهسازی ساختاریافته است؛ خلاصههایی که برای پروندههای حقوقی هند آمادهکردن رو آوردن، چون هیچ دیتاست آمادهای برای چنین خلاصههایی وجود نداشت، مجبورن خلاصهها رو خودشون آماده کنن و بعد بدن چند تا متخصص حقوقی که بررسی کنه ببینه اوکی هست یا نه.
برای اینکه روششون رو تست کنن، از دیتاست FIRE استفاده کردن (FIRE یه مجموعهداده معروف تو حوزه اطلاعات حقوقی هند هست). خلاصه اینکه حتی کارشناسهای حقوقی اومدن خروجی و توضیحاتی که سیستم تولید کرده رو ارزیابی کردن؛ چون اضافه کردن توضیح برای نتیجهی جستجو هنوز ایدهای نسبتاً جدیده.
حالا نتیجه رو بخوام بگم، سیستمشون رو روی یه بخش از دیتاست FIRE 2019 تست کردن و عددهای جالبی گرفتن: شاخص دقت میانگین یا MAP شد 0.36 و شاخص بازخوانی میانگین یا MAR هم رسید به 0.67. جالب اینه که قبلش بهترین MAP فقط 0.1573 بوده! یعنی روش جدید تقریباً دو برابر شده — حسابی بهتره.
در کل این تجربه نشون داده که وقتی از جستجو بر پایه دادههای واقعی میایم به سمت جستجو بر اساس موضوعات حقوقی میریم، نتیجهها خیلی به دردبخورتر و نزدیکتر به اون چیزی میشن که وکیلها و بچههای حقوقی واقعاً میخوان. مخصوصاً اینکه توی این روش AQgR این امکان هست که سوالات درست و حسابی هم وارد فرآیند جستجو بشه و اینجوری جوابهایی که سیستم پیدا میکنه، حسابی باحال، دقیق و کاربردیه!
پس اگه یک روزی دیدین اپلیکیشن یا سیستمی اومد و گفت من برات پرونده حقوقی مشابه پیدا میکنم و برات توضیح هم میدم چرا، بدونین این پشتش هوش مصنوعی و کلی تلاش بچههای تحقیقاتی هست!
منبع: +