خب بذار یه مشکلی رو باهات درمیون بذارم که دانشمندا کلی درگیرشن! موضوع سر اینه که وقتی میخوایم با هوش مصنوعی، احساسات آدمها رو فقط از روی صداشون تشخیص بدیم (بهش میگن “Speech Emotion Recognition” یا همون تشخیص احساسات از صدا)، خیلی از مدلها وقتی با زبونهای مختلف طرف میشن قاطی میکنن و درست جواب نمیدن. خب چرا؟ چون هر زبونی آواها (فونِم) و نحوه بیان احساسات خودش رو داره، و تازه هر آدمی هم سبک بیان احساسات خاص خودش رو میاره.
حالا دانشمندا اومدن یه ایده جدید دادن که هیجانانگیزه: گفتن بیا مدل رو جوری طراحی کنیم که هم سبک حرفزدن گویندهها رو در نظر بگیره، هم بتونه بین زبانها لینک برقرار کنه. به این میگن “Speaker Style-Aware Phoneme Anchoring”؛ یعنی مدل هم حواسش به سبک حرفزدن آدما باشه (مثلاً یکی همیشه با هیجان حرف میزنه، یکی آرومه،…)، هم به آواهای زبانی مختلف، و بتونه اینها رو به هم وصل کنه و احساسات رو تو همه این شرایط درست بفهمه.
یه کار باحال که تو این پروژه انجام دادن اینه که اومدن آدمایی که احساس شبیه هم رو موقع صحبت کردن نشون میدن، با هم توی یه گروه قرار دادن. اینو با یه تکنیک به اسم “گرافکلستِرینگ” (graph-based clustering، یعنی دستهبندی از طریق شبکهای که روابط آدمها رو نشون میده) انجام دادن. اینجوری مدل میفهمه کدوم آدما احساساتشون رو به سبک مشابه نشون میدن، حتی اگه زبونشون فرق کنه.
بعد یه چیزی ساختن به اسم “دو فضای لنگرگاهی” (dual-space anchoring)؛ یعنی مدل یاد میگیره هم تو فضای گویندهها، هم تو فضای آواهای زبانی، احساسات رو از زبانی به زبانی دیگه منتقل کنه و تشخیص بده. خلاصه، مغزشو قویتر کردن که توی زبانهای مختلف گم نشه!
برای تست این روش، اومدن روی دو دیتاست معروف آزمایش کردن: یکی دیتاست انگلیسی به اسم “MSP-Podcast” و یکی دیتاست چینی (تقریباً تایوانی – ماندارین) به اسم “BIIC-Podcast”. نتایج نشون داد این روش جدید، بهتر از بعضی مدلهای مطرح دیگه کار میکنه و کلی بینشی هم از اینکه احساسات توی زبانهای مختلف چقدر وجه مشترک دارن نشون میده.
خلاصه اگه رویای اینو داشتی که یه ربات بتونه تو هر زبونی حالت تو رو از صدات بفهمه، این مقاله یه قدم بزرگ به این رویاست نزدیکترمون کرد! حالا حالاها هنوز کار داریم، ولی این روش خیلی باحاله چون به جای اینکه فقط کلمات رو ببینه، سبک گفتار و تشابه احساسی آدمها رو هم تو همه زبونها لحاظ میکنه.
منبع: +