این مدل جدید توصیه‌گرها چطوری از هوش مصنوعی و سیگنال‌های تازه یاد می‌گیره؟

Fall Back

داستان امروز درباره یه روش جدیده واسه سیستم‌های توصیه‌گر (همون‌هایی که توی سایت‌هایی مثل دیجی‌کالا یا اسپاتیفای محصول یا آهنگ پیشنهاد می‌دن) که واقعاً باهوشه! اگه دنبال دنیای هوش مصنوعی و مدل‌های زبانی بزرگ (LLMها، یعنی همون مدل‌هایی مثل ChatGPT که می‌تونن متن تولید کنن) بودی، این مدل جدید موج جدیدی انداخته.

بیخیال فنی بودن متن مقاله باش، من ساده و روونی برات توضیح میدم: محقق‌ها فهمیدن اکثر سیستم‌های توصیه‌گرِ امروزی دوتا مرحله دارن. اول با یه مدل قبلاً آموزش دیده (pretrained tokenizer) می‌آن و هر آیتم یا محصول رو تبدیل می‌کنن به یه آیدی معنایی. مثلاً گذاشتن هر موزیکی یا کالایی یه کد منحصر به فرد می‌گیرد که مدل بفهمه داریم درباره چی حرف می‌زنیم (Tokenization یعنی همین تبدیل کردن هر چیز به یه واحد قابل فهم برای مدل). بعدش یه مدل زبانی بزرگ میاد و به سبک داستان‌گویی، پیش‌بینی می‌کنه کاربر دفعه بعد چی دوست داره (اینم Sequence-to-Sequence Modeling یعنی مدل قدم به قدم یاد می‌گیره بعدی چیه).

ایراد کجاست؟
این دوتا مرحله در عمل هدفاشون فرق داره. تو قدم اول، هدف فقط نزدیک کردن مفهوم‌ها به همدیگه‌ست. ولی تو قدم دوم، مدل باید بفهمه کاربرها چطور رفتار می‌کنن و سلیقه‌شون چیه. خلاصه این ناهماهنگی (بهش می‌گن Objective Misalignment یعنی ناسازگاری هدف) باعث میشه:
۱. اون کده‌هایی که به هر آیتم نسبت داده شده (tokenization)، ثابت بمونن و تنوع سلیقه یا رفتار کاربر رو نشون ندن؛ یعنی مدل زیاد قابل انعطاف نمی‌شه.
۲. اطلاعات ارزشمندی که مدل در مرحله قبل روی کل دنیا یاد گرفته بود (pretrained semantics یعنی دانشی که مدل قبلاً از کلی دیتا یاد گرفته) موقع یادگیری روی رفتار کاربرها تقریباً نابود می‌شه! یا حداقل نادیده گرفته می‌شه.

چی کار کردن؟
این‌ها اومدن یه راه حل خیلی باحال پیشنهاد دادن که اسمش رو گذاشتن DECOR. این یعنی “یادگیری نمایش توکن‌های تفکیک‌شده با توجه به بقیه شرایط”. ولی بذار رفیقانه تعریف کنم: DECOR یه چارچوب یکپارچه‌ست که کاری می‌کنه مدل هم اون دانشی که قبلاً از آموزش سراسری دنیا یاد گرفته رو حفظ کنه (حیف نشه)، هم بتونه خودش رو خیلی سریع به شرایط فعلی کاربر وفق بده.

دوتا ابزار اصلی داره:
۱. ترکیب توکن‌های مبتنی بر زمینه (Contextualized Token Composition): یعنی هر محصول یا آیتم واسه هر کاربر می‌تونه معنای جدیدی بگیره، نه اینکه فقط یه کد ثابت باشه.
۲. ادغام تفکیکی نمایش‌ها (Decomposed Embedding Fusion): این یکی یعنی مدل اون دانشی که قبلاً یاد گرفته رو از کدبوک‌های اولیه (pretrained codebook embeddings که یعنی لیست بردارهایی که مدل موقع پیش‌آموزش ساخته) با اطلاعات تازه‌ای که از تعامل‌های کاربران می‌گیره (collaborative embeddings یعنی یادگیری از همکاری و تعامل کاربرها) ترکیب می‌کنه.

نتیجه چی شد؟
این روش رو روی سه دیتاست واقعی (سه مجموعه داده از دنیای واقعی که احتمالاً شامل رفتار آدمای واقعی هست) تست کردن و هر بار DECOR تونسته بهتر از مدلای قبلی عمل کنه! یعنی اگه دنباله توصیه بهتر بودی، این راه حل جواب داده.

آخرش هم گفتن که کدهاشون رو موقع انتشار مقاله پابلیک می‌کنن (یعنی هر کسی بخواد می‌تونه بره بررسی کنه).

خلاصه‌اش؟
DECOR باعث میشه مدل توصیه‌گر هم باسواد بمونه (دانش قبلی رو نگه داره)، هم بتونه هر کاربری رو بهتر و دقیق‌تر بشناسه. دیگه چی از این بهتر؟

منبع: +