آیا هوش مصنوعی واقعاً می‌تونه از پس امتحان وکالت اختراع بر بیاد؟ یا هنوز راه داره؟

خب بذار یه چیزی رو بهت بگم، این روزا کلی از این مدل‌های بزرگ زبونی یا همون LLMها (Large Language Models یعنی همون هوش مصنوعی‌هایی که با داده‌های عظیم آموزش دیدن و باهاشون میشه مثل چت‌بات‌ها یا تولید متن کار کرد) دارن تو حوزه حقوق حسابی دلبری می‌کنن! خیلی جاها معمولاً از این مدل‌ها توی کارهای حقوقی استفاده میشه، مثلاً برای نوشتن قرارداد یا حتی جواب دادن به سوالای پیچیده حقوقی.

توی یه تحقیق جالب که اخیراً توی arXiv منتشر شده (یه جایی که محقق‌ها دستاوردهاشون رو می‌ذارن)، اومدن بررسی کردن ببینن واقعاً این LLMها چقدر بلدن مقررات ثبت اختراع رو بفهمن و بتونن تو یه امتحان عملی که برای وکلای ثبت اختراع اروپا طراحی شده قبول شن یا نه؟ برای این کار، چند تا از معروف‌ترین مدل‌ها رو تست کردن، مثل سری‌های GPT از OpenAI، مدل‌های Anthropic، Deepseek و Llama-3 که بعضیاشون متن باز هستن و بعضیاشون پولی.

حالا نتیجه چی شد؟ اولا مدل GPT-4o (یه نسخه جدید و قوی از ChatGPT) از بقیه بهتر عمل کرد و تونست دقت (Accuracy) 0.82 و امتیاز F1 حدود 0.81 بگیره. F1 Score هم یه معیار آماریه که نشون می‌ده مدل تو پیدا کردن جواب درست چقدر خوب عمل کرده و تعادل داره بین اینکه زیاد جواب‌های درست بده و اینکه کمتر اشتباه کنه. در مقابل مدل Llama 3.1 8B از AWS فقط دقت 0.50 گرفت (تقریباً یه چیزی در حد شیر یا خط انداختن!) و حتی اگه این مدل رو با پایتون اجرا کردن، دقتش شد 0.55 که خب هنوز نزدیکی به حدس زدن تقریبیه.

نکته اینجاست که توی این امتحان یه استاندارد حرفه‌ای هست که باید حداقل دقت 0.90 رو داشته باشی یعنی اکثر جواب‌هات درست باشه تا قبول شی. هیچ کدوم از این مدل‌هایی که تست شدن به این حد نرسیدن. حتی اونایی که تو تبلیغات کلی ازشون تعریف می‌شه و می‌گن از دکترا و وکیلای حرفه‌ای هم بهترن! پس فعلاً نمی‌شه رو این مدل‌ها برای قبول شدن تو امتحان وکالت اختراع حساب باز کنی.

یه چیز جالب دیگه که تو خلاصه اومده: مدل GPT-4o می‌تونه همزمان متن و تصویر رو قاطی کنه و بهتر باهاشون کار کنه. (یعنی Multimodality، که منظورش اینه مدل قدرت اینو داره همزمان چند نوع داده مثل عکس و متن رو بفهمه و جواب بده.) ولی مدل Claude 3 Opus که کار شرکت Anthropic هست، بعضی وقتا تو چیدمان و فرمت‌دهی جواب هاش گند می‌زنه و مثلا جواب‌هاش منظم نیست یا قالبش به‌هم می‌ریزه.

نکته دیگه اینه که محقق‌ها فقط به جواب درست توجه نکردن؛ اومدن چند تا کارشناس حرفه‌ای ثبت اختراع رو هم آوردن تا جواب‌های متنی مدل‌ها رو بررسی کنن. این آدم‌ها گفتن که براشون دلیل حقوقی که مدل برای جواب آورده مهم‌تر از خود جواب درست بوده. یعنی شاید مدل جواب درستی بده، ولی اگه دلیلش چرند باشه، بدرد نمی‌خوره! این نشون می‌ده که بعضی وقت‌ها معیارهای خودکار و آماری با نظر یک کارشناس کارکشته فرق داره.

یه نکته فنی: خروجی مدل‌ها نسبت به حتی یه تغییر کوچولو توی شرایط مثل «temperature» یا wording (یعنی یکم مدل رو متفاوت راه‌اندازی کنی یا جمله سؤالت رو عوض کنی) می‌تونه کلی عوض بشه. Temperature توی زبان مدل یعنی اینکه مدل چقدر خلاقانه یا رندوم جواب بده؛ هر چی بیشتر باشه جواب‌ها غیرقابل پیش‌بینی‌تر میشه. این حساسیت واقعاً نشون می‌ده که هنوز آدمای حرفه‌ای باید حواسشون به نتیجه مدلا باشه و نمی‌شه کامل اعتماد کرد.

حالا آینده چی؟ نویسنده مقاله پیشنهاد داده که تحقیقات آینده باید برن دنبال اینکه مدل‌ها منطق‌شون قوی‌تر بشه (یعنی منطق جواب‌هاشون همیشه درست باشه)، توی چندرسانه‌ای شدن قوی‌تر بشن و بهتر از پس سؤال‌های پیچیده با شرایط مختلف بر بیان تا بتونیم یه روزی یه وکیل اختراع مجازی واقعاً تو سطح حرفه‌ای داشته باشیم.

در کل خلاصه حرف مقاله اینه: با اینکه این مدل‌های LLM جدید واقعاً پیشرفت کردن و بعضیاشون تو خیلی زمینه‌ها فوق‌العاده‌ان، اما مردم هنوز دارن این فناوری رو زیادی دست بالا می‌گیرن! راه خیلی زیادی هست تا واقعاً یه وکیل اختراع مجازی واقعی داشته باشیم که بتونه استانداردهای حرفه‌ای رو رد کنه.

پس فعلاً اگه یه پرونده جدی حقوقی دارید یا میخواید وکیل ثبت اختراع بشید، خیلی روشون حساب نکنید و هنوز به کارشناس یا وکیل آدمیزاد نیاز دارید!

منبع: +