امروز میخوام براتون درباره یه مدل جدید و باحال حرف بزنم که میگه هر کسی یه “پرسونای صوتی” داره! حالا حتما میپرسین پرسونای صوتی یعنی چی؟ بذار ساده بگم: پرسونای صوتی یعنی اون شخصیتی که وقتی حرف میزنیم، صدامون به بقیه منتقل میکنه. مثلاً یه جور بازیگری با صدا که با توجه به موقعیت عوض میشه!
توی این تحقیق جالب، کلی با آدمای خفن تو زمینه صدا و اجرا گفتگو کردن و از دل حرفهاشون رسیدن به این که پرسونای صوتی خیلی پویا و متناسب با موقعیته. یعنی هر وقت داریم با یکی حرف میزنیم – حالا چه خودمون باشیم، چه یه ربات سخنگو – پرسونای صدامون تغییر میکنه تا بهتر منظورمون رو برسونیم یا حتی احساساتمون رو نشون بدیم.
حالا یکم اصطلاح فنی هم دارن، مثلاً “paralinguistic adjustments”. این یعنی اون خوردهریزای ظریف تو صدا که جدا از کلمات واسه بیان احساس یا معنا به رو میاد، مثلاً تغییر لحن، شدت یا کشش صدا.
مدلی که تو این مقاله معرفی شده، نشون میده که متخصصای صدا چطور، بسته به شرایط، یا یک دفعه کل پرسونای صداشون رو عوض میکنن یا خیلی ریزتر، یه سری تغییرات کوچولو تو صداشون اعمال میکنن. جالبترش اینه که میگن معمولاً سیستمهای هوشمند تولید صدا (اون مدلهایی که میگن Expressive Speech Synthesis یعنی هوش مصنوعیهایی که صدا رو شبیه انسان تولید میکنن)، نمیتونن هم به صورت کلی پرسونای صدا رو تنظیم کنن و هم کنترل جزئی روی لحن و رفتارهای صوتی داشته باشن.
یعنی چی؟ یعنی اگه بتونیم یه سیستمی بسازیم که هم پیام کلی صدا رو بفهمه (که بهش میگن persona prompting، یعنی سیستم بفهمه کاربر دوست داره صداش چه شخصیتی داشته باشه) و هم جزئیات کوچیک رو کنترل کنه، میتونیم تجربه خیلی طبیعیتری رو برای حرف زدن با رباتها یا دستیارهای صوتی بسازیم.
این مطالعات نه فقط برای آدمایی که تو صنعت تولید صدا هستن مهمه، بلکه برا هر کسی که با تکنولوژیهای صوتی کار میکنه – مثل دستیارهای هوشمند یا حتی سیستمهای ارتباطی جایگزین برای افرادی که نمیتونن حرف بزنن – حسابی کاربرد داره.
در کل اگه بخوایم باهوشتر و انسانیتر با دستگاهها حرف بزنیم، باید سیستمهایی بسازیم که بتونن هم شخصیت کلی صدامون رو بفهمن و هم به همون اندازه، روی جزییات رفتار صوتی ما کنترل داشته باشن. اینطوری، احساس واقعیتری موقع استفاده از تکنولوژی به ما دست میده و اون ارتباطه، طبیعیتر و راحتتر میشه.
منبع: +