FIER: روشی باحال واسه سریع‌تر کردن حافظه LLM توی متن‌های بلند!

Fall Back

تا حالا شده بخوای یه مدل زبونی خیلی خفن (مثلاً همین LLMهایی که کلی اطلاعات دارن و متن خیلی طولانی رو می‌فهمن) رو روی یه متن بلند امتحان کنی، ولی ببینی سرعتش پایین میاد و کار نمی‌کنه مثل قبلاً؟ خب، این ماجرای حافظه KV cache ـه که همیشه وقتی طول متن زیاد میشه، خوندنش کندتر میشه و حسابی رو اعصابه!

حالا چندتا روش قبلاً اومده بودن واسه این مشکل. بعضیا گفتن فقط بخش کوچیکی از حافظه رو نگه دار، اونم بر اساس اینکه کدوم توکن‌ها (توکن یعنی هر تیکه کوچک از متن) مهم‌ترن. مثلاً یه ایده این بود که با یه فرمول ثابت فقط توکن‌هایی که قبلاً انتخاب شدن رو نگه داریم (این رو می‌گن KV eviction – یه جور بیرون انداختن توکن‌های به‌دردنخور). بعضی‌ها هم اومدن هوشمندانه‌تر عمل کردن و به صورت داینامیک هر دفعه بر اساس اینکه به چه چیزی نیاز دارن، فقط همون توکن‌های ربط‌دار رو از حافظه انتخاب کردن (این میشه KV retrieval یا همون «بازیابی توکن‌های مهم»).

اما قضیه اینجاست که توکن‌های مهم معمولاً پخش و پلا و جسته‌گریخته توی متن بلند قرار گرفتن، یعنی هرجا میری یه توکن مهم قایم شده و خیلیا سرشون رو پیدا نمی‌کنن چون روش‌های قدیمی صفحه‌به‌صفحه بودن (page-level KV retrieval یعنی هرچندتایی با هم برمی‌داشتن)، واسه همین کلی از توکنای به‌دردبخور رو جا می‌انداختن یا کلی چیز بی‌ربط جمع می‌کردن.

اینجاست که یه روش جدید و خفن به اسم FIER معرفی شده، که واقعاً خیلی دقیق و سریع کار رو راه می‌ندازه! خود FIER مخفف Fine-Grained و Efficient KV cache Retrieval هست، یعنی «یه جور بازیابی ریز و فوق‌العاده کارآمد حافظه KV». کار FIER اینه که واسه هر توکن، اهمیتش رو خیلی راحت و سریع با استفاده از کلیدهای 1-بیتی (1-bit quantization یعنی فقط یه بیت اطلاعات ذخیره کنن، سریع‌تر و کم‌حجم‌تر!) تخمین می‌زنه. یعنی فقط با یه نگاه، تقریباً می‌فهمه این توکن به‌درد می‌خوره یا نه.

نتیجه‌ش این شده که تو آزمایشایی که انجام دادن، FIER تقریباً همون عملکردی رو داره که مثلاً وقتی کل حافظه KV رو نگه داشتین (یعنی بهترین حالت)، ولی فقط با ۱۱٪ ظرفیت حافظه! یعنی با ۱۱ درصد حافظه همون جواب رو می‌گیرید، واقعاً باور نکردنیه. علاوه بر اون، سرعتش هم بین 1.2 تا 1.5 برابر سریع‌تر شده توی کارای مربوط به متن‌های بلند! پس اگه از کند شدن مدل زبونیت حرص می‌خوری یا هی مجبوری رم اضافه کنی، این روش واقعاً می‌تونه کارت رو راه بندازه تا هم حافظه کمتر مصرف کنی و هم سرعت بیشتری بگیری.

در کل، FIER یه راه‌حل ساده و باهوشه که کار با متن‌های بلند رو برای مدل‌های زبانی جدید خیلی راحت‌تر و دوست‌داشتنی‌تر می‌کنه!

منبع: +