بخش تحقیقات هوش مصنوعی سلسفورس، CRMArena را معرفی میکند؛ یک معیار جدید برای ارزیابی LLM در CRM سلسفورس و سنجش عملکرد عاملهای LLM در وظایف واقعگرایانه CRM. این معیار جدید هوش مصنوعی، میزان توانایی عاملهای هوش مصنوعی در مدیریت پیچیدگیهای محیطهای واقعی CRM را ارزیابی میکند.
سیستمهای مدیریت ارتباط با مشتری (CRM) برای مدیریت تعاملات، دادهها و فرآیندهای مشتری ضروری هستند. ادغام هوش مصنوعی در CRM پتانسیل ایجاد انقلابی در این سیستمها، خودکارسازی وظایف، شخصیسازی تجربیات و سادهسازی خدمات مشتری را دارد. مدلهای زبان بزرگ (LLM) در خط مقدم این تحول قرار دارند و نوید خودکارسازی تصمیمگیریهای پیچیده و مدیریت دادهها در CRM را میدهند. با این حال، استقرار مؤثر این عاملهای LLM نیازمند معیارهای قوی و واقعگرایانه است تا اطمینان حاصل شود که آنها میتوانند ماهیت پیچیده محیطهای CRM، از جمله مدیریت روابط پیچیده دادهها و رعایت پروتکلهای خاص تعامل، را مدیریت کنند. معیارهای موجود مانند WorkArena، WorkBench و Tau-Bench ارزیابیهای اولیهای از عملکرد عامل CRM، با تمرکز بر عملیات ساده مانند پیمایش و فیلتر کردن دادهها، ارائه میدهند. این ابزارها در ثبت وابستگیهای پیچیده و روابط پویای ذاتی در دادههای CRM دنیای واقعی، مانند پیوند دادن سفارشها به حسابهای مشتری یا ردیابی موارد در چندین نقطه تماس، ناکام میمانند. این فقدان پیچیدگی مانع از درک جامع از قابلیتهای عامل LLM میشود و نیاز به یک چارچوب ارزیابی پیچیدهتر را برجسته میکند.
بخش تحقیقات هوش مصنوعی سلسفورس با معرفی CRMArena، یک معیار جدید که به طور خاص برای ارزیابی عملکرد عامل هوش مصنوعی در محیطهای واقعگرایانه CRM طراحی شده است، این شکاف را برطرف کرده است. برخلاف ابزارهای موجود، CRMArena یک سیستم CRM دنیای واقعی را با اتصالات پیچیده داده شبیهسازی میکند و امکان ارزیابی قوی عاملهای هوش مصنوعی در وظایف CRM در سطح حرفهای را فراهم میکند. CRMArena که با همکاری متخصصان حوزه CRM توسعه یافته است، دارای نه وظیفه واقعگرایانه بر اساس سه شخصیت متمایز است: نمایندگان خدمات، تحلیلگران و مدیران. این وظایف شامل عملکردهای اساسی CRM مانند نظارت بر عملکرد عامل، رسیدگی به درخواستهای پیچیده مشتری و تجزیه و تحلیل روند دادهها برای بهبود خدمات است. CRMArena با 1170 پرسوجوی منحصر به فرد در این نه وظیفه، یک پلتفرم جامع برای آزمایش طیف وسیعی از سناریوهای خاص CRM ارائه میدهد.
معماری CRMArena بر اساس طرحواره CRM مدلسازی شده پس از Service Cloud سلسفورس است. خط تولید داده آن یک مجموعه داده به هم پیوسته از 16 شیء، از جمله حسابها، سفارشها و موارد، با وابستگیهای پیچیدهای که منعکسکننده محیطهای CRM دنیای واقعی هستند، تولید میکند. برای افزایش بیشتر واقعگرایی، CRMArena متغیرهای پنهانی را که شرایط پویای کسبوکار، مانند روند خرید فصلی و تغییرات در سطوح مهارت عامل را شبیهسازی میکنند، در خود جای داده است. این سطح بالای اتصال، به طور متوسط 1.31 وابستگی در هر شیء، تضمین میکند که CRMArena به طور دقیق پیچیدگیهای محیطهای CRM را نشان میدهد و عاملها را با چالشهایی که در محیطهای حرفهای با آنها روبرو میشوند، مواجه میکند. علاوه بر این، CRMArena از دسترسی UI و API به سیستمهای CRM پشتیبانی میکند و امکان تعامل مستقیم از طریق فراخوانیهای API و مدیریت پاسخ واقعگرایانه را فراهم میکند.
آزمایش عملکرد اولیه با CRMArena نشان داده است که عاملهای LLM پیشرفته فعلی با وظایف CRM دست و پنجه نرم میکنند. با استفاده از چارچوب درخواست ReAct، عامل با بالاترین عملکرد تنها به نرخ تکمیل وظیفه 38.2٪ دست یافت. حتی با تکمیل ابزارهای تخصصی فراخوانی تابع، عملکرد تنها به 54.4٪ بهبود یافت، که نشاندهنده شکاف عملکرد قابل توجهی است. وظایف ارزیابی شده شامل عملکردهای چالش برانگیزی مانند تشخیص ابهام موجودیت نامگذاری شده (NED)، شناسایی نقض خطمشی (PVI) و تجزیه و تحلیل روند ماهانه (MTA) بود که همگی نیاز به تجزیه و تحلیل و تفسیر دادههای پیچیده توسط عاملها داشتند. اعتبارسنجی محیط داده مصنوعی توسط متخصصان حوزه، واقعگرایی بالایی را نشان داد، به طوری که بیش از 90٪ محیط را معتبر و بیش از 77٪ اشیاء منفرد را «واقعگرایانه» یا «بسیار واقعگرایانه» ارزیابی کردند. این یافتهها شکافهای مهمی را در توانایی عاملهای LLM برای درک وابستگیهای ظریف در دادههای CRM نشان میدهد، حوزهای که برای استقرار موفقیتآمیز راهحلهای CRM مبتنی بر هوش مصنوعی باید به آن پرداخته شود.
قابلیتهای آزمایش با دقت بالای CRMArena از فرآیند تضمین کیفیت دو لایه آن ناشی میشود. خط تولید داده برای حفظ تنوع در اشیاء دادههای مختلف بهینهسازی شده است و از یک رویکرد درخواست مینی دستهای برای به حداقل رساندن تکرار محتوا استفاده میکند. علاوه بر این، فرآیندهای تضمین کیفیت CRMArena شامل تأیید فرمت و محتوا برای اطمینان از سازگاری و دقت دادههای تولید شده است. از نظر فرمولبندی پرسوجو، CRMArena شامل ترکیبی از پرسوجوهای قابل پاسخ و غیرقابل پاسخ است، که پرسوجوهای غیرقابل پاسخ 30٪ از کل را تشکیل میدهند. این پرسوجوهای غیرقابل پاسخ برای آزمایش توانایی عاملها در شناسایی و مدیریت سؤالات بدون راهحلهای بلافاصله در دسترس طراحی شدهاند، که منعکسکننده سناریوهای CRM دنیای واقعی است که در آن اطلاعات ممکن است همیشه بلافاصله در دسترس نباشند.
نکات کلیدی تحقیق در مورد CRMArena عبارتند از:
- پوشش وظیفه CRM: CRMArena شامل نه وظیفه متنوع CRM است که نمایندگان خدمات، تحلیلگران و مدیران را نشان میدهد و بیش از 1170 پرسوجوی منحصر به فرد را پوشش میدهد.
- پیچیدگی دادهها: CRMArena شامل 16 شیء به هم پیوسته است که به طور متوسط 1.31 وابستگی در هر شیء دارند و به سطح بالایی از واقعگرایی در مدلسازی CRM دست مییابند.
- اعتبارسنجی واقعگرایی: بیش از 90٪ از متخصصان حوزه، محیط آزمایش CRMArena را واقعگرایانه یا بسیار واقعگرایانه ارزیابی کردند که اعتبار دادههای مصنوعی آن را تأیید میکند.
- عملکرد عامل: عاملهای پیشرو LLM تنها 38.2٪ از وظایف را با استفاده از درخواست استاندارد و 54.4٪ را با ابزارهای فراخوانی تابع تکمیل کردند که چالشهای قابل توجهی را در قابلیتهای فعلی هوش مصنوعی نشان میدهد.
- پرسوجوهای غیرقابل پاسخ: تقریباً 30٪ از پرسوجوهای CRMArena غیرقابل پاسخ هستند و عاملها را به چالش میکشند تا اطلاعات ناقص را شناسایی و به طور مناسب مدیریت کنند.
در نتیجه، معرفی CRMArena نشاندهنده پیشرفت قابل توجهی در ارزیابی عاملهای هوش مصنوعی برای وظایف CRM است. این ابزار، صنعت CRM را با یک معیار مقیاسپذیر، دقیق و دقیق برای ارزیابی عملکرد عامل در محیطهای واقعگرایانه CRM فراهم میکند. تحقیقات انجام شده با CRMArena شکاف قابل توجهی را بین قابلیتهای فعلی عاملهای هوش مصنوعی و استانداردهای عملکرد مورد نیاز در سیستمهای CRM دنیای واقعی برجسته میکند. چارچوب آزمایش جامع CRMArena ابزاری ارزشمند برای توسعه و اصلاح عاملهای هوش مصنوعی برای برآوردن این خواستهها ارائه میدهد و راه را برای راهحلهای CRM مؤثرتر و کارآمدتر مبتنی بر هوش مصنوعی هموار میکند.
اگر به خواندن کامل این مطلب علاقهمندید، روی لینک مقابل کلیک کنید: marktechpost.com