تا چند وقت پیش اگه یکی میگفت صدای هوش مصنوعی رو میشه راحت تشخیص داد، حرفش خیلی دور از ذهن نبود. اکثرمون با صداهای الکسا، سیری یا اون رباتهای تلفنی خشک و بیروح برخورد داشتیم که معلوم بود رباتن و مثلاً هیچی از حال و احساس تو صداشون نیست. اما جالبه بدونی طبق تحقیقات جدید دیگه اوضاع اینجوری نیست و خیلیا الان نمیتونن صدای آدم واقعی رو از هوش مصنوعی تشخیص بدن!
به تازگی تو مجله PLoS ONE یه تحقیق کاردرست منتشر شده که نشون میده وقتی به مردم نمونه صدای واقعی و هوش مصنوعی رو پشت سر هم پخش کردن، خیلیاشون اصلاً نتونستن بگن کدوم واقعیه و کدوم ساختگی. یعنی تکنولوژی رسماً رسیده به جایی که دیگه صداهای “دیپفیک” (Deepfake Audio یعنی همون صدای شبیهسازی شده با هوش مصنوعی که از رو صدای یه آدم تقلید شده) تقریباً با صدای واقعی مو نمیزنن.
خانم نادین لاوان، استاد روانشناسی دانشگاه کویین مری لندن که نویسنده اصلی این تحقیق بوده، گفته: “ما همه روزه با انواع صداهای هوش مصنوعی سر و کار داریم، از الکسا و سیری گرفته تا رباتهای پاسخگوی مشتری. اما حالا دیگه هوش مصنوعی رسیده به جایی که صداش کاملاً شبیه آدمهای واقعی شده.”
تو این تحقیق، به شرکتکنندهها نمونه صدای ۸۰ نفر مختلف (۴۰ تا صدای انسان و ۴۰ تا صدای ساخته شده با هوش مصنوعی) رو دادن و گفتن حدس بزنن کدوم صدای واقعیه و کدوم هوش مصنوعیه. نکته جالب اینجاست که برای صداهایی که از صفر توسط هوش مصنوعی درست شده بودن (یعنی نه کپی از صدای یه آدم خاص)، فقط ۴۱٪ مواقع آدما گول خوردن و فکر کردن واقعیه. یعنی هنوز یه کم میشه صداهای رباتی رو تشخیص داد.
ولی داستان برای دیپفیکها خیلی متفاوت بود: از بین صداهایی که هوش مصنوعی با الهام از صدای یه آدم واقعی ساخته بود، ۵۸٪ مواقع مردم فکر کردن این صدای واقعیه! حتی جالبتر اینکه، فقط ۶۲٪ مواقع تونستن صدای واقعی آدم رو درست تشخیص بدن. یعنی رسماً دیگه راه افتاده و تفاوت خاصی تو تشخیص صدای واقعی و دیپفیک وجود نداره!
حالا این مسئله چرا مهمه؟ موضوع فقط سر شوخی یا سرگرمی نیست؛ پیامدهای جدی هم داره. مثلاً فرض کن یکی صدای تو رو با هوش مصنوعی کپی کنه و بخواد باهاش سواستفاده کنه: میتونه راحتتر سیستمهای احراز هویت تلفنی (Voice Authentication یعنی سیستمهایی که برای ورود به حساب، صدای شما رو چک میکنن) رو دور بزنه یا حتی عزیزانت رو فریب بده که پولی جابجا کنن.
یه مورد واقعی هم بوده: یه خانم به اسم شارون برایتول (Sharon Brightwell) با همین روش ۱۵ هزار دلار کلاه سرش رفت. بهش زنگ زدن و با صدای دخترش گفتن: “تو تصادف بودم و نیاز به پول دارم.” خودش میگه: “هیچ چیزی نمیتونست من رو قانع کنه که این صدای دخترم نبوده!” یعنی واقعاً قواره صدا عین واقعی شده بود.
یا به تازگی کلاهبردارا صدای نخستوزیر کوئینزلند استرالیا (Steven Miles) رو کپی کردن و از اسمش برای یه کلاهبرداری بیتکوین استفاده کردن. فکر کن چه دردسرهایی میتونه درست کنه!
یه نکته جالبتر اینه که برای ساخت این کلونهای صوتی، نرمافزارهای معمولی و متن باز کافی بوده و فقط با چهار دقیقه صدای ضبط شده، میشه صدای یک نفر رو شبیهسازی کرد! یعنی دیگه نیاز به تجهیزات عجیبغریب یا کلی مهارت نیست. این نشون میده این تکنولوژی چقدر در دسترس همه قرار گرفته.
البته همه چیز هم ترسناک نیست! خیلی از جاها میشه از این صداهای غیرقابل تشخیص کلی استفاده خوب کرد. مثلاً برای آدمهایی که مشکل حرف زدن دارن، یا میخوان دسترسی به اطلاعات از طریق صدا راحتتر باشه یا حتی برای تولید محتوای آموزشی و ارتباطی جذابتر. خلاصه مثل هر تکنولوژی دیگه، بستگی داره چطور ازش استفاده بشه.
در کل اگه یه روزی شنیدی یکی با صدای تو یا عزیزات داره حرف میزنه، یه کم مشکوک باش! دنیا داره عوض میشه و دیگه به همین راحتیها نمیشه به هیچ صدایی اعتماد کرد؛ حتی اگه صدای دخترت باشه!
منبع: +