صدای کامپیوتری باحال و بامزه: چطوری صدای کیوت‌تر درست کنیم؟

حتماً تا حالا شنیدی که تو فرهنگ ژاپنی یه کلمه هست به اسم “Kawaii”، که یعنی چیزی خیلی بامزه و دوست‌داشتنی و کیوته! مثلاً همون چیزی که بگی «وااای چقدر نازه!». این Kawaii فقط ظاهر نیست؛ کلی بار اجتماعی و احساسی هم داره. بیشتر آدم‌ها وقتی این واژه رو می‌شنون، فکرشون سمت قیافه‌ی شخصیت‌ها تو کارتونای ژاپنی می‌ره، یا مثلاً شکل ربات‌ها و اسباب‌بازی‌ها. ولی یه نکته: درباره‌ی صدا، تقریباً هیچکس جدی بحث نکرده بوده!

حالا یه تیم محقق اومدن روی همین قضیه زوم کردن. گفتن بیایم ببینیم چه چیزایی باعث میشه صدای یه کامپیوتر، مثلا صدای متنی به گفتار (همون Text-to-Speech یا TTS، یعنی وقتی کامپیوتر یه متن رو برات می‌خونه)، یا صدای کاراکترهای بازی، واقعاً Kawaii یا به قول خودمون، کیوت و بامزه به نظر برسه.

چهارتا مرحله آزمایش کردن! (کلاً ۵۱۲ نفر آدم توی این مطالعات شرکت کردن که واقعاً عدد بزرگیه برای همچین تحقیق‌های تخصصی.) انواع صداهای مختلف رو امتحان کردن: هم صداهای رباتی و هم صداهای کاراکتر بازی. و دنبال این بودن که بفهمن کدوم ویژگی‌های صدا بیشتر “Cute” درمیاد و تا چه حد میشه دستکاریشون کرد.

اونا اومدن سراغ دو تا ویژگی اصلی صدا: فرکانس پایه (یعنی همون pitch کلی یا زیر و بمی صدا)، و فرکانس‌های فورمانت (Formant frequencies یعنی اون تیکه‌های خاص توی صدا که باعث میشه صدای هر کسی یه رنگ و لعاب خاص داشته باشه). بعد هم کم و زیادشون کردن و دیدن کجاها صدا کیوت‌تر به گوش می‌رسه. تو بعضی صداها، با یه مقدار تغییر دادن این فرکانس‌ها، واقعاً صدا Naaaaz و دوست‌داشتنی‌تر می‌شه؛ ولی بعضیاشون کلاً خیلی جا واسه کیوت‌تر شدن ندارن!

یه موضوع بامزه اینجا هست: یه جایی مثل “سقف” رسیدن. یعنی چی؟ یعنی بعضی صداها تا یه حدی کیوت می‌شن و بعد دیگه هرچقدر تغییرش بدی، باز هم مخاطب بیشتر از این ها نمی‌گه وای چه باحاله! (به این اصطلاح می‌گن ceiling effect یعنی همون اثری که وقتی به یه حدی رسیدی، دیگه رشد یا تغییر بیشتر جواب نمیده.)

این گروه اومدن مدل ساده و اولیه خودشون برای تعریف “Kawaii Vocalics” (یعنی کلا ویژگی‌های صدایی که باعث میشه یه صدا بامزه بشه) رو هم با داده‌های واقعی تست کردن و نشون دادن این مدل جواب میده. تازه یه روش عملی خیلی ساده هم دادن که باهاش می‌شه احساس کیوت بودن رو تو صدای کامپیوتری تنظیم کرد.

در کل، این تحقیق نشون میده برای این که صداهای هوشمند و رباتای آینده، از نظر احساسی بیشتر با ما ارتباط بگیرن، باید حتماً روی جزئیات صدای این مدلا هم کار بشه، نه فقط روی ظاهرشون. مثلاً الان با این شیوه می‌تونیم توی بازی‌ها یا اپلیکیشن‌هایی که صدا دارن، اراده کنیم صدای شخصیت، بیشتر باعث بشه بگی: “اووف چه بامزه!”
منبع: +