ارزیابی عملکرد عامل‌های زبان بزرگ (LLM) در CRM سلسفورس با استفاده از CRMArena

بخش تحقیقات هوش مصنوعی سلسفورس، CRMArena را معرفی می‌کند؛ یک معیار جدید برای ارزیابی LLM در CRM سلسفورس و سنجش عملکرد عامل‌های LLM در وظایف واقع‌گرایانه CRM. این معیار جدید هوش مصنوعی، میزان توانایی عامل‌های هوش مصنوعی در مدیریت پیچیدگی‌های محیط‌های واقعی CRM را ارزیابی می‌کند.

سیستم‌های مدیریت ارتباط با مشتری (CRM) برای مدیریت تعاملات، داده‌ها و فرآیندهای مشتری ضروری هستند. ادغام هوش مصنوعی در CRM پتانسیل ایجاد انقلابی در این سیستم‌ها، خودکارسازی وظایف، شخصی‌سازی تجربیات و ساده‌سازی خدمات مشتری را دارد. مدل‌های زبان بزرگ (LLM) در خط مقدم این تحول قرار دارند و نوید خودکارسازی تصمیم‌گیری‌های پیچیده و مدیریت داده‌ها در CRM را می‌دهند. با این حال، استقرار مؤثر این عامل‌های LLM نیازمند معیارهای قوی و واقع‌گرایانه است تا اطمینان حاصل شود که آنها می‌توانند ماهیت پیچیده محیط‌های CRM، از جمله مدیریت روابط پیچیده داده‌ها و رعایت پروتکل‌های خاص تعامل، را مدیریت کنند. معیارهای موجود مانند WorkArena، WorkBench و Tau-Bench ارزیابی‌های اولیه‌ای از عملکرد عامل CRM، با تمرکز بر عملیات ساده مانند پیمایش و فیلتر کردن داده‌ها، ارائه می‌دهند. این ابزارها در ثبت وابستگی‌های پیچیده و روابط پویای ذاتی در داده‌های CRM دنیای واقعی، مانند پیوند دادن سفارش‌ها به حساب‌های مشتری یا ردیابی موارد در چندین نقطه تماس، ناکام می‌مانند. این فقدان پیچیدگی مانع از درک جامع از قابلیت‌های عامل LLM می‌شود و نیاز به یک چارچوب ارزیابی پیچیده‌تر را برجسته می‌کند.

بخش تحقیقات هوش مصنوعی سلسفورس با معرفی CRMArena، یک معیار جدید که به طور خاص برای ارزیابی عملکرد عامل هوش مصنوعی در محیط‌های واقع‌گرایانه CRM طراحی شده است، این شکاف را برطرف کرده است. برخلاف ابزارهای موجود، CRMArena یک سیستم CRM دنیای واقعی را با اتصالات پیچیده داده شبیه‌سازی می‌کند و امکان ارزیابی قوی عامل‌های هوش مصنوعی در وظایف CRM در سطح حرفه‌ای را فراهم می‌کند. CRMArena که با همکاری متخصصان حوزه CRM توسعه یافته است، دارای نه وظیفه واقع‌گرایانه بر اساس سه شخصیت متمایز است: نمایندگان خدمات، تحلیلگران و مدیران. این وظایف شامل عملکردهای اساسی CRM مانند نظارت بر عملکرد عامل، رسیدگی به درخواست‌های پیچیده مشتری و تجزیه و تحلیل روند داده‌ها برای بهبود خدمات است. CRMArena با 1170 پرس‌وجوی منحصر به فرد در این نه وظیفه، یک پلتفرم جامع برای آزمایش طیف وسیعی از سناریوهای خاص CRM ارائه می‌دهد.

معماری CRMArena بر اساس طرح‌واره CRM مدل‌سازی شده پس از Service Cloud سلسفورس است. خط تولید داده آن یک مجموعه داده به هم پیوسته از 16 شیء، از جمله حساب‌ها، سفارش‌ها و موارد، با وابستگی‌های پیچیده‌ای که منعکس‌کننده محیط‌های CRM دنیای واقعی هستند، تولید می‌کند. برای افزایش بیشتر واقع‌گرایی، CRMArena متغیرهای پنهانی را که شرایط پویای کسب‌وکار، مانند روند خرید فصلی و تغییرات در سطوح مهارت عامل را شبیه‌سازی می‌کنند، در خود جای داده است. این سطح بالای اتصال، به طور متوسط 1.31 وابستگی در هر شیء، تضمین می‌کند که CRMArena به طور دقیق پیچیدگی‌های محیط‌های CRM را نشان می‌دهد و عامل‌ها را با چالش‌هایی که در محیط‌های حرفه‌ای با آنها روبرو می‌شوند، مواجه می‌کند. علاوه بر این، CRMArena از دسترسی UI و API به سیستم‌های CRM پشتیبانی می‌کند و امکان تعامل مستقیم از طریق فراخوانی‌های API و مدیریت پاسخ واقع‌گرایانه را فراهم می‌کند.

آزمایش عملکرد اولیه با CRMArena نشان داده است که عامل‌های LLM پیشرفته فعلی با وظایف CRM دست و پنجه نرم می‌کنند. با استفاده از چارچوب درخواست ReAct، عامل با بالاترین عملکرد تنها به نرخ تکمیل وظیفه 38.2٪ دست یافت. حتی با تکمیل ابزارهای تخصصی فراخوانی تابع، عملکرد تنها به 54.4٪ بهبود یافت، که نشان‌دهنده شکاف عملکرد قابل توجهی است. وظایف ارزیابی شده شامل عملکردهای چالش برانگیزی مانند تشخیص ابهام موجودیت نامگذاری شده (NED)، شناسایی نقض خط‌مشی (PVI) و تجزیه و تحلیل روند ماهانه (MTA) بود که همگی نیاز به تجزیه و تحلیل و تفسیر داده‌های پیچیده توسط عامل‌ها داشتند. اعتبارسنجی محیط داده مصنوعی توسط متخصصان حوزه، واقع‌گرایی بالایی را نشان داد، به طوری که بیش از 90٪ محیط را معتبر و بیش از 77٪ اشیاء منفرد را «واقع‌گرایانه» یا «بسیار واقع‌گرایانه» ارزیابی کردند. این یافته‌ها شکاف‌های مهمی را در توانایی عامل‌های LLM برای درک وابستگی‌های ظریف در داده‌های CRM نشان می‌دهد، حوزه‌ای که برای استقرار موفقیت‌آمیز راه‌حل‌های CRM مبتنی بر هوش مصنوعی باید به آن پرداخته شود.

قابلیت‌های آزمایش با دقت بالای CRMArena از فرآیند تضمین کیفیت دو لایه آن ناشی می‌شود. خط تولید داده برای حفظ تنوع در اشیاء داده‌های مختلف بهینه‌سازی شده است و از یک رویکرد درخواست مینی دسته‌ای برای به حداقل رساندن تکرار محتوا استفاده می‌کند. علاوه بر این، فرآیندهای تضمین کیفیت CRMArena شامل تأیید فرمت و محتوا برای اطمینان از سازگاری و دقت داده‌های تولید شده است. از نظر فرمول‌بندی پرس‌وجو، CRMArena شامل ترکیبی از پرس‌وجوهای قابل پاسخ و غیرقابل پاسخ است، که پرس‌وجوهای غیرقابل پاسخ 30٪ از کل را تشکیل می‌دهند. این پرس‌وجوهای غیرقابل پاسخ برای آزمایش توانایی عامل‌ها در شناسایی و مدیریت سؤالات بدون راه‌حل‌های بلافاصله در دسترس طراحی شده‌اند، که منعکس‌کننده سناریوهای CRM دنیای واقعی است که در آن اطلاعات ممکن است همیشه بلافاصله در دسترس نباشند.

نکات کلیدی تحقیق در مورد CRMArena عبارتند از:

پوشش وظیفه CRM: CRMArena شامل نه وظیفه متنوع CRM است که نمایندگان خدمات، تحلیلگران و مدیران را نشان می‌دهد و بیش از 1170 پرس‌وجوی منحصر به فرد را پوشش می‌دهد.
پیچیدگی داده‌ها: CRMArena شامل 16 شیء به هم پیوسته است که به طور متوسط 1.31 وابستگی در هر شیء دارند و به سطح بالایی از واقع‌گرایی در مدل‌سازی CRM دست می‌یابند.
اعتبارسنجی واقع‌گرایی: بیش از 90٪ از متخصصان حوزه، محیط آزمایش CRMArena را واقع‌گرایانه یا بسیار واقع‌گرایانه ارزیابی کردند که اعتبار داده‌های مصنوعی آن را تأیید می‌کند.
عملکرد عامل: عامل‌های پیشرو LLM تنها 38.2٪ از وظایف را با استفاده از درخواست استاندارد و 54.4٪ را با ابزارهای فراخوانی تابع تکمیل کردند که چالش‌های قابل توجهی را در قابلیت‌های فعلی هوش مصنوعی نشان می‌دهد.
پرس‌وجوهای غیرقابل پاسخ: تقریباً 30٪ از پرس‌وجوهای CRMArena غیرقابل پاسخ هستند و عامل‌ها را به چالش می‌کشند تا اطلاعات ناقص را شناسایی و به طور مناسب مدیریت کنند.

در نتیجه، معرفی CRMArena نشان‌دهنده پیشرفت قابل توجهی در ارزیابی عامل‌های هوش مصنوعی برای وظایف CRM است. این ابزار، صنعت CRM را با یک معیار مقیاس‌پذیر، دقیق و دقیق برای ارزیابی عملکرد عامل در محیط‌های واقع‌گرایانه CRM فراهم می‌کند. تحقیقات انجام شده با CRMArena شکاف قابل توجهی را بین قابلیت‌های فعلی عامل‌های هوش مصنوعی و استانداردهای عملکرد مورد نیاز در سیستم‌های CRM دنیای واقعی برجسته می‌کند. چارچوب آزمایش جامع CRMArena ابزاری ارزشمند برای توسعه و اصلاح عامل‌های هوش مصنوعی برای برآوردن این خواسته‌ها ارائه می‌دهد و راه را برای راه‌حل‌های CRM مؤثرتر و کارآمدتر مبتنی بر هوش مصنوعی هموار می‌کند.

اگر به خواندن کامل این مطلب علاقه‌مندید، روی لینک مقابل کلیک کنید: marktechpost.com