بیاید با هم یه نگاه بندازیم به یکی از جدیدترین دستاوردا تو حوزه هوش مصنوعی تو مخابرات! راستش الان همه دوست دارن وقتی به پشتیبانی تماس میگیرن، سیستم سریع جواب بده و هی آدمو تو صف معطل نکنه. برای همین، محققای NetoAI یه سیستم جدید ساختن که قول داده یه تجربه مشتی و بدون تاخیر برای تماسهای پشتیبانی بسازه. خلاصه قراره این سیستم، هم تو مراکز تماس، هم IVRها (یعنی اون سیستمهای خودکار تلفنی که «برای پشتیبانی فارسی عدد ۲ رو بزنید» میگن)، و حتی پشتیبانی هوشمند، غوغا کنه!
حالا اینو چطوری ساختن؟ چهار مدل هوش مصنوعی خاص حوزه مخابرات رو به هم وصل کردن که هر کدومش تخصصی یه کار رو انجام میده:
۱. TSLAM: این یه مدل زبون بزرگ (Large Language Model)، ولی برای مخابرات و اونم با فضای خیلی سبک و بهینه (۴بیت کوانتایز شده). کوانتایز یعنی کلی دیتا رو خلاصه و جمع و جور کرده که سریعتر جواب بده و رم کمتری بخواد.
۲. TTE: این یه مدل ASR (Automatic Speech Recognition) مخصوص مخابراته. یعنی همون سیستمی که حرف آدم رو میشنوه و فوری تبدیل به متن میکنه تا بقیه مدلها بتونن باهاش کار کنن.
۳. T-VEC: این مدل embedding میده، یعنی اطلاعات رو به یه حالت عددی قابل فهم برای ماشین (و مخصوص مخابرات) تبدیل میکنه. خلاصه مغز متفکرِ پشت تحلیل دادههای مکالمهست.
۴. T-Synth: اینم TTS (Text-To-Speech) هست، یعنی وقتی مدل دیگه تصمیمشو گرفت، حرف رو با صدای طبیعی براتون میخونه، اونم بیوقفه و همون لحظه.
این چهارتا کنار هم، یه “pipeline” میسازن؛ یعنی داده از میکروفن وارد میشه، میره سراغ تبدیل صوت به متن (streaming ASR)، بعد مدل زبون بزرگ روش فکر میکنه، اگه لازم باشه از اطلاعات داخلی مخابرات رفرنس میگیره (به این میگن Retrieval-Augmented Generation یا RAG، یعنی جواب دادن با کمک اطلاعات واقعی شرکت)، و بعدش هم جواب رو با صدای رباتی خیلی نزدیک به آدم درمیاره و برمیگردونه طرف تلفن. خلاصه تماسگیرنده حس میکنه واقعا با یه کارشناس دیگه حرف زده!
واسه اینکه نشون بدن واقعا این سیستم کار میکنه، یه دیتاست ساختن از ۵۰۰ سوال رایج که آدمهای واقعی پرسیدن (از RFCها – یعنی داکیومنتهای استاندارد فنی مخابرات)، و سناریوی واقعی مرکز تماس رو شبیهسازی کردن. با این تستها، سرعت کل سیستم رو چک کردن (تو کار هوش مصنوعی معیاری داریم به اسم RTF یا Real-Time Factor، یعنی سرعتش کمتر از ۱ باشه یعنی حتی از زمان واقعی هم سریعتر جواب میده!).
نتایج نشون داده این سه مدل اصلی یعنی TSLAM، TTE و T-Synth به راحتی RTF زیر یک دارن؛ یعنی دیگه خبری از تاخیر اعصابخُردکن تو تماسها نیست! این یعنی پشتیبانی خودکار، عیبیابی هوشمند و کلا هر جایی که نیاز داری یه ربات فوری و دقیق حرف بزنه، الان واقعیه.
در مجموع این سیستم نشون میده با هوش مصنوعی میشه پشتیبانی تلفنی رو متحول کرد، هم سرعت بالاتر، هم تخصصیتر و هم این حس رو به تماسگیرنده میده که واقعا یه نفر داره کمکش میکنه، نه یه ربات خشک و بیاحساس.
منبع: +