چیجوری هوش مصنوعی می‌تونه احساسات رو از صدای آدم‌ها توی زبان‌های مختلف بفهمه؟

خب بذار یه مشکلی رو باهات درمیون بذارم که دانشمندا کلی درگیرشن! موضوع سر اینه که وقتی می‌خوایم با هوش مصنوعی، احساسات آدم‌ها رو فقط از روی صداشون تشخیص بدیم (بهش میگن “Speech Emotion Recognition” یا همون تشخیص احساسات از صدا)، خیلی از مدل‌ها وقتی با زبون‌های مختلف طرف میشن قاطی میکنن و درست جواب نمیدن. خب چرا؟ چون هر زبونی آواها (فونِم) و نحوه بیان احساسات خودش رو داره، و تازه هر آدمی هم سبک بیان احساسات خاص خودش رو میاره.

حالا دانشمندا اومدن یه ایده جدید دادن که هیجان‌انگیزه: گفتن بیا مدل رو جوری طراحی کنیم که هم سبک حرف‌زدن گوینده‌ها رو در نظر بگیره، هم بتونه بین زبان‌ها لینک برقرار کنه. به این میگن “Speaker Style-Aware Phoneme Anchoring”؛ یعنی مدل هم حواسش به سبک حرف‌زدن آدما باشه (مثلاً یکی همیشه با هیجان حرف میزنه، یکی آرومه،…)، هم به آواهای زبانی مختلف، و بتونه این‌ها رو به هم وصل کنه و احساسات رو تو همه این شرایط درست بفهمه.

یه کار باحال که تو این پروژه انجام دادن اینه که اومدن آدمایی که احساس شبیه هم رو موقع صحبت کردن نشون میدن، با هم توی یه گروه قرار دادن. اینو با یه تکنیک به اسم “گراف‌کلستِرینگ” (graph-based clustering، یعنی دسته‌بندی از طریق شبکه‌ای که روابط آدم‌ها رو نشون میده) انجام دادن. این‌جوری مدل می‌فهمه کدوم آدما احساساتشون رو به سبک مشابه نشون میدن، حتی اگه زبونشون فرق کنه.

بعد یه چیزی ساختن به اسم “دو فضای لنگرگاهی” (dual-space anchoring)؛ یعنی مدل یاد می‌گیره هم تو فضای گوینده‌ها، هم تو فضای آواهای زبانی، احساسات رو از زبانی به زبانی دیگه منتقل کنه و تشخیص بده. خلاصه، مغزشو قوی‌تر کردن که توی زبان‌های مختلف گم نشه!

برای تست این روش، اومدن روی دو دیتاست معروف آزمایش کردن: یکی دیتاست انگلیسی به اسم “MSP-Podcast” و یکی دیتاست چینی (تقریباً تایوانی – ماندارین) به اسم “BIIC-Podcast”. نتایج نشون داد این روش جدید، بهتر از بعضی مدل‌های مطرح دیگه کار میکنه و کلی بینشی هم از اینکه احساسات توی زبان‌های مختلف چقدر وجه مشترک دارن نشون میده.

خلاصه اگه رویای اینو داشتی که یه ربات بتونه تو هر زبونی حالت تو رو از صدات بفهمه، این مقاله یه قدم بزرگ به این رویاست نزدیک‌ترمون کرد! حالا حالاها هنوز کار داریم، ولی این روش خیلی باحاله چون به جای اینکه فقط کلمات رو ببینه، سبک گفتار و تشابه احساسی آدم‌ها رو هم تو همه زبون‌ها لحاظ می‌کنه.

منبع: +