الان دیگه نمی‌شه فرق صدای واقعی و صدای هوش مصنوعی رو فهمید!

تا چند وقت پیش اگه یکی می‌گفت صدای هوش مصنوعی رو میشه راحت تشخیص داد، حرفش خیلی دور از ذهن نبود. اکثرمون با صداهای الکسا، سیری یا اون ربات‌های تلفنی خشک و بی‌روح برخورد داشتیم که معلوم بود رباتن و مثلاً هیچی از حال و احساس تو صداشون نیست. اما جالبه بدونی طبق تحقیقات جدید دیگه اوضاع اینجوری نیست و خیلیا الان نمی‌تونن صدای آدم واقعی رو از هوش مصنوعی تشخیص بدن!

به تازگی تو مجله PLoS ONE یه تحقیق کاردرست منتشر شده که نشون می‌ده وقتی به مردم نمونه صدای واقعی و هوش مصنوعی رو پشت سر هم پخش کردن، خیلیاشون اصلاً نتونستن بگن کدوم واقعیه و کدوم ساختگی. یعنی تکنولوژی رسماً رسیده به جایی که دیگه صداهای “دیپ‌فیک” (Deepfake Audio یعنی همون صدای شبیه‌سازی شده با هوش مصنوعی که از رو صدای یه آدم تقلید شده) تقریباً با صدای واقعی مو نمی‌زنن.

خانم نادین لاوان، استاد روانشناسی دانشگاه کویین مری لندن که نویسنده اصلی این تحقیق بوده، گفته: “ما همه روزه با انواع صداهای هوش مصنوعی سر و کار داریم، از الکسا و سیری گرفته تا ربات‌های پاسخگوی مشتری. اما حالا دیگه هوش مصنوعی رسیده به جایی که صداش کاملاً شبیه آدم‌های واقعی شده.”

تو این تحقیق، به شرکت‌کننده‌ها نمونه صدای ۸۰ نفر مختلف (۴۰ تا صدای انسان و ۴۰ تا صدای ساخته شده با هوش مصنوعی) رو دادن و گفتن حدس بزنن کدوم صدای واقعیه و کدوم هوش مصنوعیه. نکته جالب اینجاست که برای صداهایی که از صفر توسط هوش مصنوعی درست شده بودن (یعنی نه کپی از صدای یه آدم خاص)، فقط ۴۱٪ مواقع آدما گول خوردن و فکر کردن واقعیه. یعنی هنوز یه کم می‌شه صداهای رباتی رو تشخیص داد.

ولی داستان برای دیپ‌فیک‌ها خیلی متفاوت بود: از بین صداهایی که هوش مصنوعی با الهام از صدای یه آدم واقعی ساخته بود، ۵۸٪ مواقع مردم فکر کردن این صدای واقعیه! حتی جالب‌تر اینکه، فقط ۶۲٪ مواقع تونستن صدای واقعی آدم رو درست تشخیص بدن. یعنی رسماً دیگه راه افتاده و تفاوت خاصی تو تشخیص صدای واقعی و دیپ‌فیک وجود نداره!

حالا این مسئله چرا مهمه؟ موضوع فقط سر شوخی یا سرگرمی نیست؛ پیامدهای جدی هم داره. مثلاً فرض کن یکی صدای تو رو با هوش مصنوعی کپی کنه و بخواد باهاش سواستفاده کنه: می‌تونه راحت‌تر سیستم‌های احراز هویت تلفنی (Voice Authentication یعنی سیستم‌هایی که برای ورود به حساب، صدای شما رو چک می‌کنن) رو دور بزنه یا حتی عزیزانت رو فریب بده که پولی جابجا کنن.

یه مورد واقعی هم بوده: یه خانم به اسم شارون برایت‌ول (Sharon Brightwell) با همین روش ۱۵ هزار دلار کلاه سرش رفت. بهش زنگ زدن و با صدای دخترش گفتن: “تو تصادف بودم و نیاز به پول دارم.” خودش می‌گه: “هیچ چیزی نمی‌تونست من رو قانع کنه که این صدای دخترم نبوده!” یعنی واقعاً قواره صدا عین واقعی شده بود.

یا به تازگی کلاهبردارا صدای نخست‌وزیر کوئینزلند استرالیا (Steven Miles) رو کپی کردن و از اسمش برای یه کلاهبرداری بیت‌کوین استفاده کردن. فکر کن چه دردسرهایی می‌تونه درست کنه!

یه نکته جالب‌تر اینه که برای ساخت این کلون‌های صوتی، نرم‌افزارهای معمولی و متن باز کافی بوده و فقط با چهار دقیقه صدای ضبط شده، میشه صدای یک نفر رو شبیه‌سازی کرد! یعنی دیگه نیاز به تجهیزات عجیب‌غریب یا کلی مهارت نیست. این نشون می‌ده این تکنولوژی چقدر در دسترس همه قرار گرفته.

البته همه چیز هم ترسناک نیست! خیلی از جاها میشه از این صداهای غیرقابل تشخیص کلی استفاده خوب کرد. مثلاً برای آدم‌هایی که مشکل حرف زدن دارن، یا می‌خوان دسترسی به اطلاعات از طریق صدا راحت‌تر باشه یا حتی برای تولید محتوای آموزشی و ارتباطی جذاب‌تر. خلاصه مثل هر تکنولوژی دیگه، بستگی داره چطور ازش استفاده بشه.

در کل اگه یه روزی شنیدی یکی با صدای تو یا عزیزات داره حرف می‌زنه، یه کم مشکوک باش! دنیا داره عوض میشه و دیگه به همین راحتی‌ها نمی‌شه به هیچ صدایی اعتماد کرد؛ حتی اگه صدای دخترت باشه!

منبع: +