بیا در مورد یکی از مشکلات همیشگی خلاصهنویسی با هوش مصنوعی حرف بزنیم! همونطور که میدونی، خلاصهنویسی متن یه موضوع قدیمیه تو بحث پردازش زبان طبیعی یا همون NLP (یعنی تکنولوژیای که باعث میشه ماشینها بتونن زبان آدمیزاد رو بفهمن). تو این چند وقت اخیر با اومدن مدلهای زبان بزرگ (LLMها، مثلاً ChatGPT) و مدلهای زبان کوچیکتر (SLMها)، اوضاع خیلی پیشرفت کرده. ولی هنوزم یه مشکل اذیتکننده هست که بهش میگن “Lost in the Middle”، یعنی مدلها حواسشون به بخشهای وسط متن نمیمونه و ممکنه اون قسمتها رو فراموش کنن!
تا حالا معمولاً مدلها کل متن رو یه جا میخوردن و خلاصهش رو درمیآوردن. به این سبک میگن “Stuff” یعنی مدل همه چیز رو مثل یه قاشق بزرگ بالا میکشه و بعداً از توش خلاصه درمیاره.
حالا یه روش جالبتر هست به اسم “Map” که راه کارش اینه: بیایم متن رو تیکه تیکه کنیم، هر بخش رو جدا خلاصه کنیم، بعد این خلاصهها رو بچسبونیم به هم تا یه خلاصه نهایی بهتر داشته باشیم. اینطوری خیلی کمتر پیش میاد که اطلاعات وسط متن گم بشن. مثلاً اگه ۲۰ صفحه متن داری، هر چند صفحه رو جدا خلاصه میکنی بعد خلاصهها رو هم خلاصه میکنی.
توی این مقاله اومدن بررسی کردن که خب بالاخره کدوم روش بهتره، مخصوصاً وقتی که با مدلهای زبان کوچیکتر (SLM) کار میکنی و متن اونقدر بزرگ نیست که مدل به خاطر حجمش هنگ کنه! حتی بررسی کردن آیا این Map واقعاً مشکل “وسط رو گم کردیم” رو حل میکنه یا نه.
روش آزمایششون اینجوری بود: مرحله اول، با متنهای ساختگی (یعنی خود مدلها تولید کردن) یه سری تست شبیهسازی شده انجام دادن و با یه سیستم خودکار بررسی کردن هر خلاصه چقدر دقیق اطلاعات رو درآورده، که دیگه نیازی به آدمها واسه داوری خلاصهها نباشه. مرحله دوم، اومدن مقالات علمی واقعی رو با همون روشها خلاصه کردن تا ببینن تو عمل چطور جواب میده.
نتایج خیلی جالب بود! روش Map نهتنها خلاصههایی درست به اندازه Stuff داد، بلکه تو حفظ اطلاعات مهم اول و وسط متن خیلی هم بهتر عمل کرد. یعنی اون بخشهایی که غالبا گم و گور میشن، الان به خوبی تو خلاصه میمونن. بهخصوص وقتی با مدلهای کوچیک (SLM) کار میکنی، روش Map نتیجهاش حتی با مدلهای بزرگ (LLM) که از روش Stuff استفاده میکنن برابری میکنه! تازه این یعنی اگر محدودیت سختافزاری یا منابع داری و نمیتونی مدل خیلی بزرگ راه بندازی، با همین ترفند Map روی مدل کوچیک هم میتونی خلاصههای عالی در بیاری.
خلاصه که کل تحقیق نشون میده چه از لحاظ تئوری چه از لحاظ عملی، اگر موقع خلاصهنویسی با SLMها متن رو به بخشهایی تقسیم کنی و هر قسمت رو جدا خلاصه کنی (روش Map)، هم اطلاعات وسط راه گم نمیشن و هم خلاصههات از روش Stuff بهتر درمیاد!
پس اگه دفعه بعد خواستی با هوش مصنوعی یا حتی دستی یه متن بلند رو خلاصه کنی و هی دلنگران اینی که نکنه وسط متن یه چیز مهم جا بمونه، حتماً این تکنیک Map یا “تکهتکه کردن و خلاصه کردن” رو امتحان کن؛ نتیجهش شگفتزدهت میکنه!
منبع: +