تا حالا شده صدای یه نفر رو تو اینترنت بشنوید ولی مطمئن نباشید واقعیه یا نه؟ جدیدا با داستان پیشرفت هوش مصنوعیها، این قضیه خیلی جدیتر شده. مدلهای متن به گفتار (Text-to-Speech) میتونن فقط با چند ثانیه صدای یه نفر، کل صدای اونو تقلید کنن – یعنی دیگه حتی لازم نیست روباتی بخونه، عین همون آدم حرف میزنن! حالا این عالیه، ولی یه مشکل بزرگ هم داریم: دیپفیکهای صوتی. یعنی صدا رو کپی میکنن و ازش دزدی میکشن یا کلاهبرداری میکنن.
یه تیم تحقیقاتی از دانشگاه Sungkyunkwan کره به رهبری Jong Hwan Ko اومدن رو روشی کار کردن به اسم «Machine Unlearning» یا همون «فراموشی ماشینی» – حالا این یعنی چی؟ ببینید، Machine Unlearning یعنی مدل هوش مصنوعی رو جوری آموزش بدی که نه تنها یه اطلاعات خاص (مثلا صدای یه نفر) رو یاد نگیره، بلکه اگه یاد گرفته، یادش بره! یعنی فرض کن شما نمیخوای یه مدل هوشمند دیگه بتونه صدای تو رو شبیهسازی کنه، این تکنیک عملا کاری میکنه مدل صدای شما رو فراموش کنه و نتونه تقلیدش کنه.
ایده این کار از اینجا اومد که الان هر کی میتونه با تکنیکهای ساده، حتی اگه کمپانیها مدلهاشونو محدود کنن، باز هم با پرسیدن خلاقانه (که بهش میگن Prompt Engineering یعنی مهندسی هوشمندانهی سوالات واسه دور زدن محدودیتها) یا مثلا دستکاری مدل (Fine-tuning یعنی «فقط» یه قسمت از مدل رو دوباره آموزش میدن) هوش مصنوعی رو گول بزنه تا اطلاعات ممنوعه بده. همین باعث شد مردم درخواست کنن که بشه جلوی استفادهی بیاجازه از صداهاشون رو گرفت.
معمولا شرکتها حفاظهایی میذارن رو مدل تا کاربر نتونه مثلا شماره تلفن یا راهنمایی کار غیرقانونی بگیره. اینو بهش میگن Guardrails که یعنی حصارهایی دور اطلاعات حساسه. اما بعضیا از این حصارها بالا میرن! حرف جالب این تیم اینه که به جای اینکه حصار بذاری دور اطلاعات، بیا کلاً اون اطلاعاتو حذف کن تا دیگه اصلاً چیزی نباشه که کسی بخواد گول مدل بزنه!
اما این وسط یه مشکل دیگه هست: مدلهای پیشرفتهای مثل VoiceBox متعلق به شرکت Meta (که همون فیسبوک سابقه!) و کلی مدل جدید، به کمک Zero-shot learning کار میکنن. این یعنی چی؟ Zero-shot یعنی مدل میتونه یه کاری رو درست انجام بده، حتی اگه نمونههایی دقیقاً مثل هم تو آموزش ندیده باشه. مثلا با شنیدن حتی ۵ دقیقه از صدای یکی، بعدا میتونه اون صدا رو تقلید کنه، حتی اگه قبلا داخل دیتاست نبوده! پس باید مدل رو طوری تنظیم کرد که حتی اگه یه نمونه کم از صدای یه نفر داشت، دیگه سراغش نره و تقلید نکنه.
روش تیم کرهای اینجوریه که اگر به مدل بگی با صدای فلان فرد حرف بزنه (که قرار شده فراموشش کنه)، مدل به جای تقلید همون فرد، با یه صدای تصادفی جواب میده. اینجوری دیگه کسی نمیتونه صدای اون فرد خاص رو از مدل بکشه بیرون.
نتایج؟ محققها تونستن کاری کنن که مدل، بعد از این فراموشکاری(!)، تا ۷۵٪ کمتر از قبل بتونه صدای اون فرد رو تقلید کنه! یه مدل معمولی هنوز ممکنه شبیهسازی خوب بکنه، ولی مدل جدید دیگه اصلاً مثل قبل نیست و صدای «فراموششده» رو درست درنمیاره. البته اینم بگم: این فراموش کردن ارزونی در نمیاد! یعنی مدل بعدش (در مورد بقیه صداها) حدود ۲.۸٪ ضعیفتر میشه – ولی بازم خیلی خوبه نسبت به چیزی که جلوی کلاهبرداری و دیپفیک میگیره.
داستان جالبتر اینجاست که این پروژه دانشجویی بوده و یه نفری به اسم Jinju Kim (دانشجوی مستر همون دانشگاه) تو مقالهشون توضیح میده که روش Guardrails مثل حصار دور اطلاعات بدیه که شاید بشه دور زدش. اما Unlearning میگه اصلاً اطلاعات بد رو حذف کن تا کسی پشت حصار نباشه!
برای اینکه صدای یکی رو توی مدل فراموش کنن، باید حدود ۵ دقیقه صدا ازش داشته باشن و پروسه آموزش از چند روز طول میکشه—بسته به اینکه چند نفر رو باید فراموش کنه!
یه نکته فنی هم بگم: موقع ماشین Unlearning، دادههای مربوط به صدای آدمهایی که قراره حذف بشن، با داده تصادفی جایگزین میشن. این کار باعث میشه اطلاعات اصلی دیگه قابل بازسازی نباشه و واقعا فراموش بشه.
یه نفر به اسم Vaidehi Patil (دانشجوی دکترا تو UNC) که خودش در زمینه Machine Unlearning کار میکنه، گفته این یکی از جدیترین کاربردهای این تکنیک برای صداست و هر جا هم تصادفیسازی بالا باشه، نشونه خوبیه که واقعاً فراموش اتفاق افتاده. فقط باید بدونی که تو این شغلها همیشه یه توازنی هست: هرچی بیشتر مدل یادت بره، ممکنه کمی سطح اجرایی خودش پایین بیاد. یا به اصطلاح «نهار مفتی وجود نداره»!
البته معلوم نیست این روش کی توسط شرکتهایی مثل Meta تو VoiceBox یا شرکتهای دیگه استفاده بشه – الان هنوز تو مرحله ابتداییه و کمپانیها خیلی سختگیرن، چون این مدلها براحتی میتونن سو استفاده بشن.
ولی در کل محققها به آینده این قضیه خوشبینن. میگن به شرطی که این روش سریعتر و با قابلیت بزرگنمایی (Scalable یعنی بتونه با تعداد زیادی داده هم خوب کار کنه) توسعه پیدا کنه، میتونه واقعاً جلوی حجم بزرگی از تجاوز به حریم خصوصی صوتی رو بگیره.
اگه میخواید نمونههای صوتی و دمو رو بشنوید و خودتون مقایسه کنید، تیم پروژه یه سایت منتشر کرده به اسم speechunlearn.github.io — خیلی جالبه، حتما یه سر بزنید!
خلاصه، هوش مصنوعی هر روز دایره جادوهاش بزرگتر میشه، و حالا داریم راههایی یاد میگیریم که اگه نخوایم صداهامون بازیچه مدلها بشه، مدلها رو مجبور کنیم واقعاً «فراموش» کنن – درست مثل یه آدم! واقعا آینده حریم خصوصی داره جالب میشه…
منبع: +