چطور هوش مصنوعی می‌تونه یه صدا رو واقعا «فراموش» کنه؟ خداحافظ دیپ‌فیک‌های صوتی!

تا حالا شده صدای یه نفر رو تو اینترنت بشنوید ولی مطمئن نباشید واقعیه یا نه؟ جدیدا با داستان پیشرفت هوش مصنوعی‌ها، این قضیه خیلی جدی‌تر شده. مدل‌های متن به گفتار (Text-to-Speech) می‌تونن فقط با چند ثانیه صدای یه نفر، کل صدای اونو تقلید کنن – یعنی دیگه حتی لازم نیست روباتی بخونه، عین همون آدم حرف می‌زنن! حالا این عالیه، ولی یه مشکل بزرگ هم داریم: دیپ‌فیک‌های صوتی. یعنی صدا رو کپی می‌کنن و ازش دزدی می‌کشن یا کلاهبرداری می‌کنن.

یه تیم تحقیقاتی از دانشگاه Sungkyunkwan کره به رهبری Jong Hwan Ko اومدن رو روشی کار کردن به اسم «Machine Unlearning» یا همون «فراموشی ماشینی» – حالا این یعنی چی؟ ببینید، Machine Unlearning یعنی مدل هوش مصنوعی رو جوری آموزش بدی که نه تنها یه اطلاعات خاص (مثلا صدای یه نفر) رو یاد نگیره، بلکه اگه یاد گرفته، یادش بره! یعنی فرض کن شما نمی‌خوای یه مدل هوشمند دیگه بتونه صدای تو رو شبیه‌سازی کنه، این تکنیک عملا کاری می‌کنه مدل صدای شما رو فراموش کنه و نتونه تقلیدش کنه.

ایده این کار از اینجا اومد که الان هر کی می‌تونه با تکنیک‌های ساده، حتی اگه کمپانی‌ها مدل‌هاشونو محدود کنن، باز هم با پرسیدن خلاقانه (که بهش می‌گن Prompt Engineering یعنی مهندسی هوشمندانه‌ی سوالات واسه دور زدن محدودیت‌ها) یا مثلا دستکاری مدل (Fine-tuning یعنی «فقط» یه قسمت از مدل رو دوباره آموزش می‌دن) هوش مصنوعی رو گول بزنه تا اطلاعات ممنوعه بده. همین باعث شد مردم درخواست کنن که بشه جلوی استفاده‌ی بی‌اجازه از صداهاشون رو گرفت.

معمولا شرکت‌ها حفاظ‌هایی می‌ذارن رو مدل تا کاربر نتونه مثلا شماره تلفن یا راهنمایی کار غیرقانونی بگیره. اینو بهش می‌گن Guardrails که یعنی حصارهایی دور اطلاعات حساسه. اما بعضیا از این حصارها بالا می‌رن! حرف جالب این تیم اینه که به جای اینکه حصار بذاری دور اطلاعات، بیا کلاً اون اطلاعاتو حذف کن تا دیگه اصلاً چیزی نباشه که کسی بخواد گول مدل بزنه!

اما این وسط یه مشکل دیگه هست: مدل‌های پیشرفته‌ای مثل VoiceBox متعلق به شرکت Meta (که همون فیس‌بوک سابقه!) و کلی مدل جدید، به کمک Zero-shot learning کار می‌کنن. این یعنی چی؟ Zero-shot یعنی مدل می‌تونه یه کاری رو درست انجام بده، حتی اگه نمونه‌هایی دقیقاً مثل هم تو آموزش ندیده باشه. مثلا با شنیدن حتی ۵ دقیقه از صدای یکی، بعدا می‌تونه اون صدا رو تقلید کنه، حتی اگه قبلا داخل دیتاست نبوده! پس باید مدل رو طوری تنظیم کرد که حتی اگه یه نمونه کم از صدای یه نفر داشت، دیگه سراغش نره و تقلید نکنه.

روش تیم کره‌ای اینجوریه که اگر به مدل بگی با صدای فلان فرد حرف بزنه (که قرار شده فراموشش کنه)، مدل به جای تقلید همون فرد، با یه صدای تصادفی جواب می‌ده. اینجوری دیگه کسی نمی‌تونه صدای اون فرد خاص رو از مدل بکشه بیرون.

نتایج؟ محقق‌ها تونستن کاری کنن که مدل، بعد از این فراموش‌کاری(!)، تا ۷۵٪ کمتر از قبل بتونه صدای اون فرد رو تقلید کنه! یه مدل معمولی هنوز ممکنه شبیه‌سازی خوب بکنه، ولی مدل جدید دیگه اصلاً مثل قبل نیست و صدای «فراموش‌شده» رو درست درنمیاره. البته اینم بگم: این فراموش کردن ارزونی در نمیاد! یعنی مدل بعدش (در مورد بقیه صداها) حدود ۲.۸٪ ضعیف‌تر می‌شه – ولی بازم خیلی خوبه نسبت به چیزی که جلوی کلاهبرداری و دیپ‌فیک می‌گیره.

داستان جالب‌تر اینجاست که این پروژه دانشجویی بوده و یه نفری به اسم Jinju Kim (دانشجوی مستر همون دانشگاه) تو مقاله‌شون توضیح می‌ده که روش Guardrails مثل حصار دور اطلاعات بدیه که شاید بشه دور زدش. اما Unlearning می‌گه اصلاً اطلاعات بد رو حذف کن تا کسی پشت حصار نباشه!

برای اینکه صدای یکی رو توی مدل فراموش کنن، باید حدود ۵ دقیقه صدا ازش داشته باشن و پروسه آموزش از چند روز طول می‌کشه—بسته به اینکه چند نفر رو باید فراموش کنه!

یه نکته فنی هم بگم: موقع ماشین Unlearning، داده‌های مربوط به صدای آدم‌هایی که قراره حذف بشن، با داده تصادفی جایگزین می‌شن. این کار باعث می‌شه اطلاعات اصلی دیگه قابل بازسازی نباشه و واقعا فراموش بشه.

یه نفر به اسم Vaidehi Patil (دانشجوی دکترا تو UNC) که خودش در زمینه Machine Unlearning کار می‌کنه، گفته این یکی از جدی‌ترین کاربردهای این تکنیک برای صداست و هر جا هم تصادفی‌سازی بالا باشه، نشونه خوبیه که واقعاً فراموش اتفاق افتاده. فقط باید بدونی که تو این شغل‌ها همیشه یه توازنی هست: هرچی بیشتر مدل یادت بره، ممکنه کمی سطح اجرایی خودش پایین بیاد. یا به اصطلاح «نهار مفتی وجود نداره»!

البته معلوم نیست این روش کی توسط شرکت‌هایی مثل Meta تو VoiceBox یا شرکت‌های دیگه استفاده بشه – الان هنوز تو مرحله ابتداییه و کمپانی‌ها خیلی سخت‌گیرن، چون این مدل‌ها براحتی می‌تونن سو استفاده بشن.

ولی در کل محقق‌ها به آینده این قضیه خوشبینن. می‌گن به شرطی که این روش سریع‌تر و با قابلیت بزرگ‌نمایی (Scalable یعنی بتونه با تعداد زیادی داده هم خوب کار کنه) توسعه پیدا کنه، می‌تونه واقعاً جلوی حجم بزرگی از تجاوز به حریم خصوصی صوتی رو بگیره.

اگه می‌خواید نمونه‌های صوتی و دمو رو بشنوید و خودتون مقایسه کنید، تیم پروژه یه سایت منتشر کرده به اسم speechunlearn.github.io — خیلی جالبه، حتما یه سر بزنید!

خلاصه، هوش مصنوعی هر روز دایره جادوهاش بزرگ‌تر می‌شه، و حالا داریم راه‌هایی یاد می‌گیریم که اگه نخوایم صداهامون بازیچه مدل‌ها بشه، مدل‌ها رو مجبور کنیم واقعاً «فراموش» کنن – درست مثل یه آدم! واقعا آینده حریم خصوصی داره جالب می‌شه…

منبع: +