داستان امروز درباره یه روش جدیده واسه سیستمهای توصیهگر (همونهایی که توی سایتهایی مثل دیجیکالا یا اسپاتیفای محصول یا آهنگ پیشنهاد میدن) که واقعاً باهوشه! اگه دنبال دنیای هوش مصنوعی و مدلهای زبانی بزرگ (LLMها، یعنی همون مدلهایی مثل ChatGPT که میتونن متن تولید کنن) بودی، این مدل جدید موج جدیدی انداخته.
بیخیال فنی بودن متن مقاله باش، من ساده و روونی برات توضیح میدم: محققها فهمیدن اکثر سیستمهای توصیهگرِ امروزی دوتا مرحله دارن. اول با یه مدل قبلاً آموزش دیده (pretrained tokenizer) میآن و هر آیتم یا محصول رو تبدیل میکنن به یه آیدی معنایی. مثلاً گذاشتن هر موزیکی یا کالایی یه کد منحصر به فرد میگیرد که مدل بفهمه داریم درباره چی حرف میزنیم (Tokenization یعنی همین تبدیل کردن هر چیز به یه واحد قابل فهم برای مدل). بعدش یه مدل زبانی بزرگ میاد و به سبک داستانگویی، پیشبینی میکنه کاربر دفعه بعد چی دوست داره (اینم Sequence-to-Sequence Modeling یعنی مدل قدم به قدم یاد میگیره بعدی چیه).
ایراد کجاست؟
این دوتا مرحله در عمل هدفاشون فرق داره. تو قدم اول، هدف فقط نزدیک کردن مفهومها به همدیگهست. ولی تو قدم دوم، مدل باید بفهمه کاربرها چطور رفتار میکنن و سلیقهشون چیه. خلاصه این ناهماهنگی (بهش میگن Objective Misalignment یعنی ناسازگاری هدف) باعث میشه:
۱. اون کدههایی که به هر آیتم نسبت داده شده (tokenization)، ثابت بمونن و تنوع سلیقه یا رفتار کاربر رو نشون ندن؛ یعنی مدل زیاد قابل انعطاف نمیشه.
۲. اطلاعات ارزشمندی که مدل در مرحله قبل روی کل دنیا یاد گرفته بود (pretrained semantics یعنی دانشی که مدل قبلاً از کلی دیتا یاد گرفته) موقع یادگیری روی رفتار کاربرها تقریباً نابود میشه! یا حداقل نادیده گرفته میشه.
چی کار کردن؟
اینها اومدن یه راه حل خیلی باحال پیشنهاد دادن که اسمش رو گذاشتن DECOR. این یعنی “یادگیری نمایش توکنهای تفکیکشده با توجه به بقیه شرایط”. ولی بذار رفیقانه تعریف کنم: DECOR یه چارچوب یکپارچهست که کاری میکنه مدل هم اون دانشی که قبلاً از آموزش سراسری دنیا یاد گرفته رو حفظ کنه (حیف نشه)، هم بتونه خودش رو خیلی سریع به شرایط فعلی کاربر وفق بده.
دوتا ابزار اصلی داره:
۱. ترکیب توکنهای مبتنی بر زمینه (Contextualized Token Composition): یعنی هر محصول یا آیتم واسه هر کاربر میتونه معنای جدیدی بگیره، نه اینکه فقط یه کد ثابت باشه.
۲. ادغام تفکیکی نمایشها (Decomposed Embedding Fusion): این یکی یعنی مدل اون دانشی که قبلاً یاد گرفته رو از کدبوکهای اولیه (pretrained codebook embeddings که یعنی لیست بردارهایی که مدل موقع پیشآموزش ساخته) با اطلاعات تازهای که از تعاملهای کاربران میگیره (collaborative embeddings یعنی یادگیری از همکاری و تعامل کاربرها) ترکیب میکنه.
نتیجه چی شد؟
این روش رو روی سه دیتاست واقعی (سه مجموعه داده از دنیای واقعی که احتمالاً شامل رفتار آدمای واقعی هست) تست کردن و هر بار DECOR تونسته بهتر از مدلای قبلی عمل کنه! یعنی اگه دنباله توصیه بهتر بودی، این راه حل جواب داده.
آخرش هم گفتن که کدهاشون رو موقع انتشار مقاله پابلیک میکنن (یعنی هر کسی بخواد میتونه بره بررسی کنه).
خلاصهاش؟
DECOR باعث میشه مدل توصیهگر هم باسواد بمونه (دانش قبلی رو نگه داره)، هم بتونه هر کاربری رو بهتر و دقیقتر بشناسه. دیگه چی از این بهتر؟
منبع: +