آیا هوش مصنوعی واقعاً می‌تونه داوری مقالات علمی رو انجام بده؟ نقاط قوت و ضعف LLMها زیر ذره‌بین!

این روزها تعداد مقاله‌هایی که دانشمندها برای کنفرانس‌های علمی مثل ICLR و NeurIPS می‌فرستن شدیداً زیاد شده و خب، معمولاً داورها حسابی گرفتار میشن. اینطوری هم کیفیت داوری‌ها پایین میاد هم صف داوری طولانی میشه. واسه همین یه عده شروع کردن به استفاده یا تست مدل‌های زبانی بزرگ (LLMها) — مثلاً چی؟ همون هوش مصنوعی‌هایی که مثل ChatGPT می‌تونن خودشون متن بنویسن — برای تولید اتوماتیک داوری مقالات علمی.

حالا سؤال اصلی اینه: این LLMها واقعاً چقدر کار داورها رو خوب انجام میدن؟ ماجرای مقاله‌ای که در arXiv منتشر شده و بهش می‌خوایم با هم نگاه کنیم دقیقاً همینه. نویسنده‌ها اومدن یک بررسی حسابی راه انداختن تا ببینن LLMها تا چه حد می‌تونن تو داوری خودکار مقالات علمی موفق باشن و چه نقاط قوت و ضعفی دارن. ضمناً اگه خواستین جزئیات بیشتر یا کدها و دیتا رو ببینین، لینکش رو هم گذاشتن: https://github.com/RichardLRC/Peer-Review

بیاید قصه رو یه کم خودمونی‌تر براتون تعریف کنم؛ اول از همه، LLMها واقعاً تو بازنویسی و خلاصه کردن نقاط قوت مقالات، توصیف کلی و جمع‌بندی نقاط مهم خیلی خوب عمل می‌کنن. یعنی مثلاً می‌تونن بخش‌هایی مثل «این مقاله چه نوآوری‌هایی داشته یا روشش چی بوده» رو واضح و منظم بنویسن. نمونه‌ش هم GPT-4o هست که تو داوری مقاله‌های خوبِ ICLR سال ۲۰۲۵، حتی ۱۵.۷۴٪ بیشتر از داورهای واقعی اصطلاح و موجودیت به کار برده تو بخش نقاط قوت!

اما سمت دیگه قضیه، پای نقاط ضعف این هوش مصنوعی‌ها میاد وسط. مثلاً وقتی می‌خوایم انتظار داشته باشیم LLM بیاد اشکالات تخصصی مقاله رو با دقت بالا دربیاره یا سؤال‌های مهم و جدی بپرسه، یا حتی بفهمه یک مقاله چقدر کیفیت داره و بر اساس اون بازخورد بده، اینجاست که کم میارن. مثلاً GPT-4o تو بخش نقاط ضعف، ۵۹.۴۲٪ کمتر از داورهای واقعی مورد تخصصی پیدا می‌کنه! یا وقتی می‌خوان به مقاله‌هایی که کیفیت پایین‌تری دارن نسبت به مقاله‌های خوب، تعداد بیشتری نکته منفی بدن، فقط حدود ۵.۷٪ مفصل‌تر می‌شن؛ این در حالی‌ست که داورهای انسانی تو همین بخش‌ها تغییرشون تا ۵۰٪ هم می‌رسه!

یعنی چی؟ یعنی مدل‌های زبانی بزرگ تو تعریف و تایید کلی مقاله‌ها اوکی هستن، ولی تو نقد جدی و شناسایی چالش‌ها و ارائه بازخورد متناسب با کیفیت مقاله، هنوز به گرد پای داورهای واقعی نمی‌رسن.

برای اینکه حرف‌شون محکم باشه، نویسنده‌ها یه مجموعه داده خیلی مفصل ساختن، شامل ۱۶۸۳ مقاله و ۶۴۹۵ داوری تخصصی واقعی مربوط به کنفرانس‌های مختلف و سال‌های متفاوت، و این رو با بازخوردهایی که ۵ تا LLM مختلف تولید کردن مقایسه کردن. از تحلیل فنی هم استفاده کردن؛ مثلاً اومدن میزان شباهت معنایی (Semantic Similarity یعنی برابری از نظر معنی و مفهوم بین دو متن) و معیارهای گراف دانش ساختاری (Structured Knowledge Graph Metrics، که یعنی بررسی اینکه چقدر مطالب و مفاهیم مرتب و سازمان‌یافتن) رو تو داوری‌ها بررسی کردن.

نتیجه‌گیری کلی این شد که اگه هدف فقط توصیف کلی و شناسایی نقاط قوته، کارتون با LLM راه می‌افته. اما برای یه داوری متعهد و عمیق — مثلاً نقطه ضعف فنی، سؤالات جدی، و داوری بر حسب کیفیت واقعی هر مقاله — هنوز باید به داورهای انسانی امید بست. البته این بررسی نشون می‌ده که اگه قرار باشه با تکنولوژی آینده ابزارهایی برای کمک به داوری بسازیم، اول باید روی همین ضعف‌ها تمرکز کنیم.

در مجموع، این تحقیق راه رو نشون داده تا LLMها چطور می‌تونن کمک‌کننده باشن و کجاها باید قوی‌تر بشن؛ یعنی شاید LLMها فعلاً «همکار دوم» خوبی برای داورها باشن اما جای انسان رو کماکان نمی‌گیرن!

منبع: +