PARS: راه حل باحال برای اینکه چطور LLMها با سرعت برق جواب بدن!

Fall Back

ببین دوست من، این روزا همه جا صحبت از LLM (Large Language Model)هاست – همون مدل‌های هوش مصنوعی فوق‌العاده قدرتمندی که می‌تونن مثل انسان فکر کنن، سؤالات پیچیده رو جواب بدن یا حتی مطلب بنویسن. حالا مشکل اینجاست که وقتی تعداد زیادی درخواست میاد و همه منتظر جواب سریع هستن، خیلی مهمه که این مدل‌ها بتونن با «کمترین تاخیر» (یعنی سریع‌ترین شکل ممکن) جواب بدن.

تا الان، روش‌هایی مثل First-Come-First-Serve یا FCFS رو استفاده می‌کردن؛ یعنی هرکی زودتر بیاد، اول سرویس می‌گیره. ولی مشکلی که پیش میاد اینه که بعضی درخواست‌ها خیلی طول می‌کشن، بعد درخواست‌های کوچیک و سریع پشت سر اینا گیر می‌کنن. به این حالت می‌گن Head-of-Line (HOL) blocking – یعنی صف قفل میشه و همه معطل بزرگه می‌مونن.

اینجاست که PARS وارد بازی میشه. PARS یه سیستم زمان‌بندی جدیده برای این مدل‌های زبانی بزرگ، که اتفاقاً خیلی باحاله و جور دیگه‌ای فکر می‌کنه! این سیستم رو جوری طراحی کردن که بتونه تشخیص بده کدوم درخواست‌ها سریع‌تر تموم میشن و سعی می‌کنه اونا رو زودتر سرویس بده. اسم این روش رو گذاشتن “تقریباً مثل SJF” یعنی Shortest-Job-First – یعنی اول کوچک‌ترها!

حالا این تکنیک که تو PARS استفاده میشه، اسمش Pairwise Ranking با Margin Ranking Loss هست. این یعنی دو تا درخواست رو با هم مقایسه می‌کنه و با یه مدل یادگیری هوشمندانه یاد می‌گیره که کدوم سریع‌تر تموم میشه. این برعکس روشای سنتیه، چون فقط دنبال این نیست که اولویت ثابت بزنه؛ بلکه فعالانه برای هر جفت درخواست، فکر می‌کنه! Margin Ranking Loss هم یه تکنیک یادگیری ماشینیه که کمک می‌کنه فرق مهم بین رتبه‌ها تشخیص داده بشه.

خلاصه اینکه PARS عملاً اومده تو سامانه‌های پیشرفته سرویس‌دهی LLMها – مثلاً همین vLLM که الان خیلی روی بورس هست – و دقیقاً همون‌جا بدون دردسر ادغام میشه.

یه نکته جالب اینه که PARS تمرکزش هی سرعت سرویس دادن با کمترین سربار (Overhead) هست؛ سربار یعنی اضافه‌کاری یا وقت اضافه‌ای که سیستم صرف تصمیم‌گیری می‌کنه. واقعاً با یه الگوریتم سبک و سریع کار می‌کنه، و پیش‌بینی می‌کنه پاسخ کدوم درخواست کوتاه‌تره.

یعنی هم تو دنیای واقعی، تو دیتاست‌های واقعی و با مدل‌های مختلف LLM امتحان شده و نتیجه‌ها واقعاً عالی بوده! مخصوصاً وقتی بار روی سیستم زیاده یا درخواست‌ها حالت “منطقی” و reasoning دارن – یعنی مدل باید فکر کنه و جواب بده، نه فقط یه جواب سرپایی بگه.

یه چیز خیلی باحال دیگه هم تو این مقاله هست: نشون دادن که این روش فقط محدود به یه مدل خاص نیست. عملاً اگه مدل پیش‌بینی PARS رو با یه LLM آموزش بدی، باز واسه مدل‌های دیگه هم جواب میده و همچنان برنامه‌ریزی عالی انجام میده. یعنی این روش گسترش‌پذیروایده‌آله (Generalizable).

در کل، اگه دنبال یه راه شیک و موثر می‌گردی که LLMها سریع‌تر به همه جواب بدن و کمتر اعصاب خردی تو صف بمونی، PARS همون چیزیه که باید سراغش بری! هم کار رو سریع‌تر می‌کنه، هم باعث میشه عملکرد سیستم خیلی بهتر بشه. خلاصه، خیلی هوشمند و آینده‌داره!

منبع: +