تا حالا شده بخوای یه مدل زبونی خیلی خفن (مثلاً همین LLMهایی که کلی اطلاعات دارن و متن خیلی طولانی رو میفهمن) رو روی یه متن بلند امتحان کنی، ولی ببینی سرعتش پایین میاد و کار نمیکنه مثل قبلاً؟ خب، این ماجرای حافظه KV cache ـه که همیشه وقتی طول متن زیاد میشه، خوندنش کندتر میشه و حسابی رو اعصابه!
حالا چندتا روش قبلاً اومده بودن واسه این مشکل. بعضیا گفتن فقط بخش کوچیکی از حافظه رو نگه دار، اونم بر اساس اینکه کدوم توکنها (توکن یعنی هر تیکه کوچک از متن) مهمترن. مثلاً یه ایده این بود که با یه فرمول ثابت فقط توکنهایی که قبلاً انتخاب شدن رو نگه داریم (این رو میگن KV eviction – یه جور بیرون انداختن توکنهای بهدردنخور). بعضیها هم اومدن هوشمندانهتر عمل کردن و به صورت داینامیک هر دفعه بر اساس اینکه به چه چیزی نیاز دارن، فقط همون توکنهای ربطدار رو از حافظه انتخاب کردن (این میشه KV retrieval یا همون «بازیابی توکنهای مهم»).
اما قضیه اینجاست که توکنهای مهم معمولاً پخش و پلا و جستهگریخته توی متن بلند قرار گرفتن، یعنی هرجا میری یه توکن مهم قایم شده و خیلیا سرشون رو پیدا نمیکنن چون روشهای قدیمی صفحهبهصفحه بودن (page-level KV retrieval یعنی هرچندتایی با هم برمیداشتن)، واسه همین کلی از توکنای بهدردبخور رو جا میانداختن یا کلی چیز بیربط جمع میکردن.
اینجاست که یه روش جدید و خفن به اسم FIER معرفی شده، که واقعاً خیلی دقیق و سریع کار رو راه میندازه! خود FIER مخفف Fine-Grained و Efficient KV cache Retrieval هست، یعنی «یه جور بازیابی ریز و فوقالعاده کارآمد حافظه KV». کار FIER اینه که واسه هر توکن، اهمیتش رو خیلی راحت و سریع با استفاده از کلیدهای 1-بیتی (1-bit quantization یعنی فقط یه بیت اطلاعات ذخیره کنن، سریعتر و کمحجمتر!) تخمین میزنه. یعنی فقط با یه نگاه، تقریباً میفهمه این توکن بهدرد میخوره یا نه.
نتیجهش این شده که تو آزمایشایی که انجام دادن، FIER تقریباً همون عملکردی رو داره که مثلاً وقتی کل حافظه KV رو نگه داشتین (یعنی بهترین حالت)، ولی فقط با ۱۱٪ ظرفیت حافظه! یعنی با ۱۱ درصد حافظه همون جواب رو میگیرید، واقعاً باور نکردنیه. علاوه بر اون، سرعتش هم بین 1.2 تا 1.5 برابر سریعتر شده توی کارای مربوط به متنهای بلند! پس اگه از کند شدن مدل زبونیت حرص میخوری یا هی مجبوری رم اضافه کنی، این روش واقعاً میتونه کارت رو راه بندازه تا هم حافظه کمتر مصرف کنی و هم سرعت بیشتری بگیری.
در کل، FIER یه راهحل ساده و باهوشه که کار با متنهای بلند رو برای مدلهای زبانی جدید خیلی راحتتر و دوستداشتنیتر میکنه!
منبع: +