بهینه‌سازی تولید مبتنی بر بازیابی (RAG) با RAGCache

تولید مبتنی بر بازیابی (RAG) قابلیت‌های مدل‌های زبانی بزرگ (LLM) را افزایش می‌دهد، اما می‌تواند هزینه‌های محاسباتی بالایی داشته باشد. RAGCache با ذخیره‌سازی پویا، بهینه‌سازی RAG را ممکن می‌سازد و تأخیر را کاهش می‌دهد و توان عملیاتی را برای برنامه‌های بلادرنگ افزایش می‌دهد. این بهینه‌سازی به لطف RAGCache، اجرای سریع‌تر و کارآمدتر برنامه‌های RAG را تضمین می‌کند.

تولید مبتنی بر بازیابی (RAG) با فعال کردن دسترسی و استفاده از منابع دانش خارجی، قابلیت‌های مدل‌های زبانی بزرگ (LLM) را متحول کرده است و منجر به پاسخ‌های مرتبط‌تر و دقیق‌تر از نظر زمینه‌ای شده است. با این حال، این تکنیک قدرتمند سربار محاسباتی و حافظه قابل توجهی را به همراه دارد، که عمدتاً به دلیل گنجاندن اسناد خارجی طولانی در درخواست‌های LLM است. این توالی‌های طولانی می‌توانند بیش از ده برابر طول درخواست اولیه باشند که باعث ایجاد گلوگاه برای برنامه‌های بلادرنگ و مانع از مقیاس‌پذیری RAG می‌شوند. استراتژی‌های بهینه‌سازی موجود برای استنتاج LLM، مانند اشتراک‌گذاری حالات میانی، مفید بوده‌اند اما در رفع چالش‌های خاص ایجاد شده توسط RAG، به‌ویژه خواسته‌های تولید دنباله طولانی و بازیابی مکرر دانش، ناکام مانده‌اند.

RAGCache، یک سیستم ذخیره‌سازی پویا چندسطحی جدید که توسط محققان دانشگاه پکن و ByteDance توسعه داده شده است، راه‌حل این چالش‌ها را ارائه می‌دهد. RAGCache که به‌طور خاص برای بهینه‌سازی تولید مبتنی بر بازیابی طراحی شده است، با پیاده‌سازی یک درخت دانش که حالات میانی اسناد بازیابی شده را در سلسله مراتب حافظه GPU و میزبان ذخیره می‌کند، با ناکارآمدی سیستم‌های RAG سنتی مقابله می‌کند. این رویکرد نوآورانه امکان مدیریت و استفاده مجدد کارآمد از این حالات میانی حیاتی را در چندین درخواست فراهم می‌کند، محاسبات اضافی را به حداقل می‌رساند و زمان پاسخ را تسریع می‌کند. این سیستم عملکرد را از طریق یک سیاست جایگزینی متناسب، حساس به ویژگی‌های استنتاج LLM و الگوهای بازیابی RAG، که نرخ برخورد حافظه پنهان را به حداکثر می‌رساند و استفاده کارآمد از منابع حافظه GPU و میزبان را تضمین می‌کند، بیشتر افزایش می‌دهد. علاوه بر این، RAGCache از مسيرسازی حدسی پویا استفاده می‌کند و مراحل بازیابی و استنتاج را همپوشانی می‌کند تا تأخیر کلی را کاهش دهد.

درخت دانش در قلب RAGCache تانسورهای کلید-مقدار ذخیره شده اسناد بازیابی شده را سازماندهی می‌کند. اسناد پرکاربرد در اولویت قرار می‌گیرند و در حافظه سریع‌تر GPU ذخیره می‌شوند، در حالی که اسناد کمتر استفاده شده در حافظه کندتر میزبان قرار می‌گیرند. این رویکرد چندلایه دسترسی سریع به مرتبط‌ترین اطلاعات را تضمین می‌کند. سیاست جایگزینی منحصربه‌فرد Prefix-aware Greedy-Dual-Size-Frequency (PGDSF) سیستم نقش مهمی در حفظ نرخ بالای برخورد حافظه پنهان ایفا می‌کند. PGDSF به‌طور هوشمندانه ترتیب اسناد، فراوانی دسترسی، اندازه و تازگی را برای تعیین اینکه کدام موارد ذخیره شده را حفظ کند و کدام را جایگزین کند، در نظر می‌گیرد و خطاهای حافظه پنهان را به حداقل می‌رساند و استفاده از منابع را بهینه می‌کند. ویژگی مسيرسازي حدسی پویا با همپوشانی فرآیندهای بازیابی برداری و استنتاج LLM، تأخیر ذاتی در اجرای متوالی را کاهش می‌دهد و کارایی را بیشتر افزایش می‌دهد.

اثربخشی RAGCache با ادغام آن با vLLM، یک سیستم استنتاج LLM پیشرو، و Faiss، یک پایگاه داده برداری پرکاربرد، به دقت ارزیابی شد. معیارها بهبود عملکرد قابل توجهی را در مقایسه با تنظیمات RAG سنتی نشان دادند. RAGCache در مقایسه با vLLM با استفاده از Faiss به کاهش 4 برابری زمان رسیدن به اولین نشانه (TTFT) و بهبود 2.1 برابری در توان عملیاتی دست یافت. حتی در مقایسه با SGLang، یک سیستم سرویس‌دهی LLM با کارایی بالا، RAGCache دستاوردهای چشمگیری را با کاهش 3.5 برابری در TTFT و افزایش 1.8 برابری در توان عملیاتی نشان داد. این نتایج مزایای قابل توجه ذخیره‌سازی چندسطحی همراه با تکنیک‌های پیشرفته همپوشانی بازیابی و تولید را برجسته می‌کند. RAGCache با ذخیره‌سازی کارآمد اسناد پرکاربرد، سربار محاسباتی را به میزان قابل توجهی کاهش می‌دهد و آن را برای سناریوهایی با حجم بالایی از درخواست‌های بازیابی مشابه بسیار مناسب می‌کند.

اهمیت RAGCache در توانایی آن برای پر کردن شکاف بین پتانسیل نظری RAG و کاربرد عملی آن در سناریوهای بلادرنگ و در مقیاس بزرگ نهفته است. مکانیسم ذخیره‌سازی هوشمند سیستم مستقیماً به گلوگاه‌های عملکردی که مانع از پذیرش گسترده RAG شده‌اند، می‌پردازد. RAGCache با کاهش تأخیر و افزایش توان عملیاتی، LLMهای تقویت‌شده با منابع دانش خارجی را امکان‌پذیر می‌کند و امکانات جدیدی را برای برنامه‌های بلادرنگ مانند ربات‌های گفتگو، سیستم‌های پرسش و پاسخ و تولید محتوای شخصی‌سازی شده باز می‌کند.

با ادامه تکامل LLMها، پیچیده‌تر و پرمصرف‌تر شدن، راه‌حل‌هایی مانند RAGCache برای اطمینان از استقرار کارآمد و مقیاس‌پذیر آنها ضروری هستند. توانایی ادغام یکپارچه دانش خارجی در عین حفظ تأخیر کم و توان عملیاتی بالا برای آزادسازی پتانسیل کامل این مدل‌های زبانی قدرتمند بسیار مهم است. RAGCache نشان‌دهنده یک گام رو به جلو در بهینه‌سازی تولید مبتنی بر بازیابی است و راه را برای برنامه‌های LLM پاسخگوتر و کارآمدتر از نظر منابع هموار می‌کند. رویکرد نوآورانه آن به ذخیره‌سازی چندسطحی و مسيرسازی پویا، یک چارچوب قوی برای مقیاس‌بندی RAG برای برآوردن خواسته‌های برنامه‌های دنیای واقعی ارائه می‌دهد و در نهایت قدرت LLMهای بهبود یافته با دانش را در دسترس‌تر و کاربردی‌تر می‌کند.

اگر به خواندن کامل این مطلب علاقه‌مندید، روی لینک مقابل کلیک کنید: marktechpost.com