این روزها تعداد مقالههایی که دانشمندها برای کنفرانسهای علمی مثل ICLR و NeurIPS میفرستن شدیداً زیاد شده و خب، معمولاً داورها حسابی گرفتار میشن. اینطوری هم کیفیت داوریها پایین میاد هم صف داوری طولانی میشه. واسه همین یه عده شروع کردن به استفاده یا تست مدلهای زبانی بزرگ (LLMها) — مثلاً چی؟ همون هوش مصنوعیهایی که مثل ChatGPT میتونن خودشون متن بنویسن — برای تولید اتوماتیک داوری مقالات علمی.
حالا سؤال اصلی اینه: این LLMها واقعاً چقدر کار داورها رو خوب انجام میدن؟ ماجرای مقالهای که در arXiv منتشر شده و بهش میخوایم با هم نگاه کنیم دقیقاً همینه. نویسندهها اومدن یک بررسی حسابی راه انداختن تا ببینن LLMها تا چه حد میتونن تو داوری خودکار مقالات علمی موفق باشن و چه نقاط قوت و ضعفی دارن. ضمناً اگه خواستین جزئیات بیشتر یا کدها و دیتا رو ببینین، لینکش رو هم گذاشتن: https://github.com/RichardLRC/Peer-Review
بیاید قصه رو یه کم خودمونیتر براتون تعریف کنم؛ اول از همه، LLMها واقعاً تو بازنویسی و خلاصه کردن نقاط قوت مقالات، توصیف کلی و جمعبندی نقاط مهم خیلی خوب عمل میکنن. یعنی مثلاً میتونن بخشهایی مثل «این مقاله چه نوآوریهایی داشته یا روشش چی بوده» رو واضح و منظم بنویسن. نمونهش هم GPT-4o هست که تو داوری مقالههای خوبِ ICLR سال ۲۰۲۵، حتی ۱۵.۷۴٪ بیشتر از داورهای واقعی اصطلاح و موجودیت به کار برده تو بخش نقاط قوت!
اما سمت دیگه قضیه، پای نقاط ضعف این هوش مصنوعیها میاد وسط. مثلاً وقتی میخوایم انتظار داشته باشیم LLM بیاد اشکالات تخصصی مقاله رو با دقت بالا دربیاره یا سؤالهای مهم و جدی بپرسه، یا حتی بفهمه یک مقاله چقدر کیفیت داره و بر اساس اون بازخورد بده، اینجاست که کم میارن. مثلاً GPT-4o تو بخش نقاط ضعف، ۵۹.۴۲٪ کمتر از داورهای واقعی مورد تخصصی پیدا میکنه! یا وقتی میخوان به مقالههایی که کیفیت پایینتری دارن نسبت به مقالههای خوب، تعداد بیشتری نکته منفی بدن، فقط حدود ۵.۷٪ مفصلتر میشن؛ این در حالیست که داورهای انسانی تو همین بخشها تغییرشون تا ۵۰٪ هم میرسه!
یعنی چی؟ یعنی مدلهای زبانی بزرگ تو تعریف و تایید کلی مقالهها اوکی هستن، ولی تو نقد جدی و شناسایی چالشها و ارائه بازخورد متناسب با کیفیت مقاله، هنوز به گرد پای داورهای واقعی نمیرسن.
برای اینکه حرفشون محکم باشه، نویسندهها یه مجموعه داده خیلی مفصل ساختن، شامل ۱۶۸۳ مقاله و ۶۴۹۵ داوری تخصصی واقعی مربوط به کنفرانسهای مختلف و سالهای متفاوت، و این رو با بازخوردهایی که ۵ تا LLM مختلف تولید کردن مقایسه کردن. از تحلیل فنی هم استفاده کردن؛ مثلاً اومدن میزان شباهت معنایی (Semantic Similarity یعنی برابری از نظر معنی و مفهوم بین دو متن) و معیارهای گراف دانش ساختاری (Structured Knowledge Graph Metrics، که یعنی بررسی اینکه چقدر مطالب و مفاهیم مرتب و سازمانیافتن) رو تو داوریها بررسی کردن.
نتیجهگیری کلی این شد که اگه هدف فقط توصیف کلی و شناسایی نقاط قوته، کارتون با LLM راه میافته. اما برای یه داوری متعهد و عمیق — مثلاً نقطه ضعف فنی، سؤالات جدی، و داوری بر حسب کیفیت واقعی هر مقاله — هنوز باید به داورهای انسانی امید بست. البته این بررسی نشون میده که اگه قرار باشه با تکنولوژی آینده ابزارهایی برای کمک به داوری بسازیم، اول باید روی همین ضعفها تمرکز کنیم.
در مجموع، این تحقیق راه رو نشون داده تا LLMها چطور میتونن کمککننده باشن و کجاها باید قویتر بشن؛ یعنی شاید LLMها فعلاً «همکار دوم» خوبی برای داورها باشن اما جای انسان رو کماکان نمیگیرن!
منبع: +