خلاصه‌نویسی بهتر با روشی ساده: متن رو تیکه تیکه کن و خلاصه کن!

بیا در مورد یکی از مشکلات همیشگی خلاصه‌نویسی با هوش مصنوعی حرف بزنیم! همونطور که می‌دونی، خلاصه‌نویسی متن یه موضوع قدیمیه تو بحث پردازش زبان طبیعی یا همون NLP (یعنی تکنولوژی‌ای که باعث میشه ماشین‌ها بتونن زبان آدمیزاد رو بفهمن). تو این چند وقت اخیر با اومدن مدل‌های زبان بزرگ (LLMها، مثلاً ChatGPT) و مدل‌های زبان کوچیک‌تر (SLMها)، اوضاع خیلی پیشرفت کرده. ولی هنوزم یه مشکل اذیت‌کننده هست که بهش می‌گن “Lost in the Middle”، یعنی مدل‌ها حواسشون به بخش‌های وسط متن نمی‌مونه و ممکنه اون قسمت‌ها رو فراموش کنن!

تا حالا معمولاً مدل‌ها کل متن رو یه جا می‌خوردن و خلاصه‌ش رو درمی‌آوردن. به این سبک می‌گن “Stuff” یعنی مدل همه چیز رو مثل یه قاشق بزرگ بالا می‌کشه و بعداً از توش خلاصه‌ درمیاره.

حالا یه روش جالب‌تر هست به اسم “Map” که راه کارش اینه: بیایم متن رو تیکه تیکه کنیم، هر بخش رو جدا خلاصه کنیم، بعد این خلاصه‌ها رو بچسبونیم به هم تا یه خلاصه نهایی بهتر داشته باشیم. اینطوری خیلی کمتر پیش میاد که اطلاعات وسط متن گم بشن. مثلاً اگه ۲۰ صفحه متن داری، هر چند صفحه رو جدا خلاصه می‌کنی بعد خلاصه‌ها رو هم خلاصه می‌کنی.

توی این مقاله اومدن بررسی کردن که خب بالاخره کدوم روش بهتره، مخصوصاً وقتی که با مدل‌های زبان کوچیک‌تر (SLM) کار می‌کنی و متن اونقدر بزرگ نیست که مدل به خاطر حجمش هنگ کنه! حتی بررسی کردن آیا این Map واقعاً مشکل “وسط رو گم کردیم” رو حل می‌کنه یا نه.

روش آزمایش‌شون اینجوری بود: مرحله اول، با متن‌های ساختگی (یعنی خود مدل‌ها تولید کردن) یه سری تست شبیه‌سازی شده انجام دادن و با یه سیستم خودکار بررسی کردن هر خلاصه چقدر دقیق اطلاعات رو درآورده، که دیگه نیازی به آدم‌ها واسه داوری خلاصه‌ها نباشه. مرحله دوم، اومدن مقالات علمی واقعی رو با همون روش‌ها خلاصه کردن تا ببینن تو عمل چطور جواب می‌ده.

نتایج خیلی جالب بود! روش Map نه‌تنها خلاصه‌هایی درست به اندازه Stuff داد، بلکه تو حفظ اطلاعات مهم اول و وسط متن خیلی هم بهتر عمل کرد. یعنی اون بخش‌هایی که غالبا گم و گور می‌شن، الان به خوبی تو خلاصه می‌مونن. به‌خصوص وقتی با مدل‌های کوچیک (SLM) کار می‌کنی، روش Map نتیجه‌اش حتی با مدل‌های بزرگ (LLM) که از روش Stuff استفاده می‌کنن برابری می‌کنه! تازه این یعنی اگر محدودیت سخت‌افزاری یا منابع داری و نمی‌تونی مدل خیلی بزرگ راه بندازی، با همین ترفند Map روی مدل کوچیک هم می‌تونی خلاصه‌های عالی در بیاری.

خلاصه که کل تحقیق نشون می‌ده چه از لحاظ تئوری چه از لحاظ عملی، اگر موقع خلاصه‌نویسی با SLMها متن رو به بخش‌هایی تقسیم کنی و هر قسمت رو جدا خلاصه‌ کنی (روش Map)، هم اطلاعات وسط راه گم نمی‌شن و هم خلاصه‌هات از روش Stuff بهتر درمیاد!

پس اگه دفعه بعد خواستی با هوش مصنوعی یا حتی دستی یه متن بلند رو خلاصه کنی و هی دل‌نگران اینی که نکنه وسط متن یه چیز مهم جا بمونه، حتماً این تکنیک Map یا “تکه‌تکه کردن و خلاصه کردن” رو امتحان کن؛ نتیجه‌ش شگفت‌زده‌ت می‌کنه!

منبع: +