معماری دو مسیره سری-موازی: روشی نو برای تشخیص سبک صحبت کردن

تا حالا فکر کردی که چطور میشه فقط با گوش دادن به صدای یه نفر، سبک حرف زدنش رو تشخیص داد؟ مثلاً بفهمی که داره شوخی میکنه یا رسمی حرف میزنه یا شاید خیلی راحت و خودمونی صحبت میکنه؟ به این کار تو دنیای هوش مصنوعی میگن “تشخیص سبک صحبت کردن” یا Speaking Style Recognition (SSR)، که یعنی بفهمیم کسی داره با چه حال‌وهوایی حرف میزنه.

حالا اغلب مدلا و روش‌هایی که تا حالا برای این کار بودن، بیشتر روی اطلاعات زبانی تمرکز داشتن؛ یعنی از روی خود کلمات و جملاتی که گفته میشه قضاوت میکردن. ولی خب این وسط اطلاعات صوتی (یعنی تن صدا، لحن، مکث‌ها و اینا) که خیلی هم مهمن، یا کامل نادیده گرفته میشدن یا به اندازه کافی جدی گرفته نمیشدن. همین باعث میشد دقت این سیستم‌ها یه جایی گیر کنه و بهتر نشه.

توی یه مقاله جدید و جالب، محقق‌ها اومدن روشی رو معرفی کردن که هم اطلاعات زبانی (لینگوییستیکی)، هم اطلاعات صوتی (آکوستیکی) رو با هم ترکیب میکنه. حالا این دوتا چی هستن؟ اطلاعات آکوستیکی یعنی همون ویژگی‌های صدای خام، مثله لحن، شدت، زیر و بمی صدا. اطلاعات زبانی هم یعنی متنی که گفته میشه و معانی‌ش. این ترکیب باعث میشه سیستم از هر دو جنبه مغز طرف استفاده کنه، هم میفهمه چی گفته میشه هم چطوری گفته میشه!

خب این معماری جدید اسمش هست “dual-path serial-parallel architecture”، یعنی یه ساختار دو مسیره که هم سری، هم موازی کار میکنه. ساده‌تر بگم:

مسیر سری (Serial Path) تقریباً شبیه یه دنباله عمل میکنه، یعنی اول متن رو (با چیزی مثل ASR که یعنی سیستم تشخیص خودکار گفتار) می‌گیره و بعد میره سراغ تشخیص سبک. اینجا ترتیب زمان خیلی مهمه.
مسیر موازی (Parallel Path) هم جالبه! اینجا یه ماژولی طراحی شده به اسم ALSM که یعنی Acoustic-Linguistic Similarity Module، یعنی یه جور ابزار که کمک میکنه اطلاعات صوتی و زبانی همزمان با هم ارتباط بگیرن و تأثیر بذارن رو نتیجه نهایی.

حالا یه مقایسه با مدل قبلی که بیشتر استفاده میشد به اسم OSUM که مدل پایه (Baseline) حساب میشه. طبق نتایجی که گرفتن، این سیستم جدید دوتا کار مهم کرده:
۱. مقدار پارامتر‌ها رو تا ۸۸.۴ درصد کمتر کرده! (پارامتر توی هوش مصنوعی، یعنی تعداد داده‌هایی که مدل برای یادگیری و اجرا لازمه داشته باشه. خب، پارامتر کمتر یعنی مدل سبک‌تر و سریع‌تر کار میکنه و کمتر جا میگیره.)
۲. دقت تشخیص سبک صحبت رو تا ۳۰.۳ درصد بیشتر کرده، اونم روی ۸ تا سبک مختلف که توی مجموعه تست بودن! این یعنی واقعاً فرق جدی با سیستم‌های قدیمی دارن.

در کل، این معماری تازه واقعاً نشون داد که وقتی هم به صدا (آکوستیک) دقت کنیم هم به متن (لینگویستیک)، میشه کلی بهتر فهمید هر کس چه جوری حرف میزنه. مخصوصاً الان که کلی داده صوتی و متن داریم و هوش مصنوعی می‌تونه بیاد و اینا رو همزمان تحلیل کنه. خلاصه، آینده تشخیص سبک صحبت کلی میتونه جذاب‌تر و باحال‌تر باشه!

منبع: +