ببین دوست من، این روزا همه جا صحبت از LLM (Large Language Model)هاست – همون مدلهای هوش مصنوعی فوقالعاده قدرتمندی که میتونن مثل انسان فکر کنن، سؤالات پیچیده رو جواب بدن یا حتی مطلب بنویسن. حالا مشکل اینجاست که وقتی تعداد زیادی درخواست میاد و همه منتظر جواب سریع هستن، خیلی مهمه که این مدلها بتونن با «کمترین تاخیر» (یعنی سریعترین شکل ممکن) جواب بدن.
تا الان، روشهایی مثل First-Come-First-Serve یا FCFS رو استفاده میکردن؛ یعنی هرکی زودتر بیاد، اول سرویس میگیره. ولی مشکلی که پیش میاد اینه که بعضی درخواستها خیلی طول میکشن، بعد درخواستهای کوچیک و سریع پشت سر اینا گیر میکنن. به این حالت میگن Head-of-Line (HOL) blocking – یعنی صف قفل میشه و همه معطل بزرگه میمونن.
اینجاست که PARS وارد بازی میشه. PARS یه سیستم زمانبندی جدیده برای این مدلهای زبانی بزرگ، که اتفاقاً خیلی باحاله و جور دیگهای فکر میکنه! این سیستم رو جوری طراحی کردن که بتونه تشخیص بده کدوم درخواستها سریعتر تموم میشن و سعی میکنه اونا رو زودتر سرویس بده. اسم این روش رو گذاشتن “تقریباً مثل SJF” یعنی Shortest-Job-First – یعنی اول کوچکترها!
حالا این تکنیک که تو PARS استفاده میشه، اسمش Pairwise Ranking با Margin Ranking Loss هست. این یعنی دو تا درخواست رو با هم مقایسه میکنه و با یه مدل یادگیری هوشمندانه یاد میگیره که کدوم سریعتر تموم میشه. این برعکس روشای سنتیه، چون فقط دنبال این نیست که اولویت ثابت بزنه؛ بلکه فعالانه برای هر جفت درخواست، فکر میکنه! Margin Ranking Loss هم یه تکنیک یادگیری ماشینیه که کمک میکنه فرق مهم بین رتبهها تشخیص داده بشه.
خلاصه اینکه PARS عملاً اومده تو سامانههای پیشرفته سرویسدهی LLMها – مثلاً همین vLLM که الان خیلی روی بورس هست – و دقیقاً همونجا بدون دردسر ادغام میشه.
یه نکته جالب اینه که PARS تمرکزش هی سرعت سرویس دادن با کمترین سربار (Overhead) هست؛ سربار یعنی اضافهکاری یا وقت اضافهای که سیستم صرف تصمیمگیری میکنه. واقعاً با یه الگوریتم سبک و سریع کار میکنه، و پیشبینی میکنه پاسخ کدوم درخواست کوتاهتره.
یعنی هم تو دنیای واقعی، تو دیتاستهای واقعی و با مدلهای مختلف LLM امتحان شده و نتیجهها واقعاً عالی بوده! مخصوصاً وقتی بار روی سیستم زیاده یا درخواستها حالت “منطقی” و reasoning دارن – یعنی مدل باید فکر کنه و جواب بده، نه فقط یه جواب سرپایی بگه.
یه چیز خیلی باحال دیگه هم تو این مقاله هست: نشون دادن که این روش فقط محدود به یه مدل خاص نیست. عملاً اگه مدل پیشبینی PARS رو با یه LLM آموزش بدی، باز واسه مدلهای دیگه هم جواب میده و همچنان برنامهریزی عالی انجام میده. یعنی این روش گسترشپذیروایدهآله (Generalizable).
در کل، اگه دنبال یه راه شیک و موثر میگردی که LLMها سریعتر به همه جواب بدن و کمتر اعصاب خردی تو صف بمونی، PARS همون چیزیه که باید سراغش بری! هم کار رو سریعتر میکنه، هم باعث میشه عملکرد سیستم خیلی بهتر بشه. خلاصه، خیلی هوشمند و آیندهداره!
منبع: +