خب بذار یه چیزی رو بهت بگم، این روزا کلی از این مدلهای بزرگ زبونی یا همون LLMها (Large Language Models یعنی همون هوش مصنوعیهایی که با دادههای عظیم آموزش دیدن و باهاشون میشه مثل چتباتها یا تولید متن کار کرد) دارن تو حوزه حقوق حسابی دلبری میکنن! خیلی جاها معمولاً از این مدلها توی کارهای حقوقی استفاده میشه، مثلاً برای نوشتن قرارداد یا حتی جواب دادن به سوالای پیچیده حقوقی.
توی یه تحقیق جالب که اخیراً توی arXiv منتشر شده (یه جایی که محققها دستاوردهاشون رو میذارن)، اومدن بررسی کردن ببینن واقعاً این LLMها چقدر بلدن مقررات ثبت اختراع رو بفهمن و بتونن تو یه امتحان عملی که برای وکلای ثبت اختراع اروپا طراحی شده قبول شن یا نه؟ برای این کار، چند تا از معروفترین مدلها رو تست کردن، مثل سریهای GPT از OpenAI، مدلهای Anthropic، Deepseek و Llama-3 که بعضیاشون متن باز هستن و بعضیاشون پولی.
حالا نتیجه چی شد؟ اولا مدل GPT-4o (یه نسخه جدید و قوی از ChatGPT) از بقیه بهتر عمل کرد و تونست دقت (Accuracy) 0.82 و امتیاز F1 حدود 0.81 بگیره. F1 Score هم یه معیار آماریه که نشون میده مدل تو پیدا کردن جواب درست چقدر خوب عمل کرده و تعادل داره بین اینکه زیاد جوابهای درست بده و اینکه کمتر اشتباه کنه. در مقابل مدل Llama 3.1 8B از AWS فقط دقت 0.50 گرفت (تقریباً یه چیزی در حد شیر یا خط انداختن!) و حتی اگه این مدل رو با پایتون اجرا کردن، دقتش شد 0.55 که خب هنوز نزدیکی به حدس زدن تقریبیه.
نکته اینجاست که توی این امتحان یه استاندارد حرفهای هست که باید حداقل دقت 0.90 رو داشته باشی یعنی اکثر جوابهات درست باشه تا قبول شی. هیچ کدوم از این مدلهایی که تست شدن به این حد نرسیدن. حتی اونایی که تو تبلیغات کلی ازشون تعریف میشه و میگن از دکترا و وکیلای حرفهای هم بهترن! پس فعلاً نمیشه رو این مدلها برای قبول شدن تو امتحان وکالت اختراع حساب باز کنی.
یه چیز جالب دیگه که تو خلاصه اومده: مدل GPT-4o میتونه همزمان متن و تصویر رو قاطی کنه و بهتر باهاشون کار کنه. (یعنی Multimodality، که منظورش اینه مدل قدرت اینو داره همزمان چند نوع داده مثل عکس و متن رو بفهمه و جواب بده.) ولی مدل Claude 3 Opus که کار شرکت Anthropic هست، بعضی وقتا تو چیدمان و فرمتدهی جواب هاش گند میزنه و مثلا جوابهاش منظم نیست یا قالبش بههم میریزه.
نکته دیگه اینه که محققها فقط به جواب درست توجه نکردن؛ اومدن چند تا کارشناس حرفهای ثبت اختراع رو هم آوردن تا جوابهای متنی مدلها رو بررسی کنن. این آدمها گفتن که براشون دلیل حقوقی که مدل برای جواب آورده مهمتر از خود جواب درست بوده. یعنی شاید مدل جواب درستی بده، ولی اگه دلیلش چرند باشه، بدرد نمیخوره! این نشون میده که بعضی وقتها معیارهای خودکار و آماری با نظر یک کارشناس کارکشته فرق داره.
یه نکته فنی: خروجی مدلها نسبت به حتی یه تغییر کوچولو توی شرایط مثل «temperature» یا wording (یعنی یکم مدل رو متفاوت راهاندازی کنی یا جمله سؤالت رو عوض کنی) میتونه کلی عوض بشه. Temperature توی زبان مدل یعنی اینکه مدل چقدر خلاقانه یا رندوم جواب بده؛ هر چی بیشتر باشه جوابها غیرقابل پیشبینیتر میشه. این حساسیت واقعاً نشون میده که هنوز آدمای حرفهای باید حواسشون به نتیجه مدلا باشه و نمیشه کامل اعتماد کرد.
حالا آینده چی؟ نویسنده مقاله پیشنهاد داده که تحقیقات آینده باید برن دنبال اینکه مدلها منطقشون قویتر بشه (یعنی منطق جوابهاشون همیشه درست باشه)، توی چندرسانهای شدن قویتر بشن و بهتر از پس سؤالهای پیچیده با شرایط مختلف بر بیان تا بتونیم یه روزی یه وکیل اختراع مجازی واقعاً تو سطح حرفهای داشته باشیم.
در کل خلاصه حرف مقاله اینه: با اینکه این مدلهای LLM جدید واقعاً پیشرفت کردن و بعضیاشون تو خیلی زمینهها فوقالعادهان، اما مردم هنوز دارن این فناوری رو زیادی دست بالا میگیرن! راه خیلی زیادی هست تا واقعاً یه وکیل اختراع مجازی واقعی داشته باشیم که بتونه استانداردهای حرفهای رو رد کنه.
پس فعلاً اگه یه پرونده جدی حقوقی دارید یا میخواید وکیل ثبت اختراع بشید، خیلی روشون حساب نکنید و هنوز به کارشناس یا وکیل آدمیزاد نیاز دارید!
منبع: +