خب بچهها، امروز میخوام درباره یه پروژه خیلی جالب تو حوزه تبدیل صوت (تقلبی و واقعی) یعنی همون Deepfake صوتی حرف بزنم. ماجرای ASVspoof 5 Challenge هم همینه: ببینیم سیستمها چقدر خوب میتونن تشخیص بدن یه صدای ضبط شده واقعیه یا تقلبیه. تو این مقاله دارم براتون توضیح میدم که تیم XMUspeech تو این چالش چه کارهایی انجام داده و چه نکتههایی یاد گرفته.
اول از همه، بگم که تو این دوره جدید چالش، دادههای صوتیای که شرکتکنندهها باید باهاش کارکنن خیلی طولانیتر شده! مثلاً شما رو فرض کنین قبلاً باید یه تیکه چند ثانیهای رو تشخیص میدادین، الان باید با یه فایل صوتی حسابی طرف باشین. جالبیش اینجاست که وقتی فقط طول صدا رو درست تنظیم کردن، نتیجه کلاً بهتر شد، یعنی خود این موضوع خیلی مهم بود!
حالا واسه اینکه بتونن ردپای تقلب یا همون artifact رو تو صدا پیدا کنن، تیم XMUspeech چه مدلهایی رو امتحان کرد؟ مدلهایی مثل AASIST و HM-Conformer که خودشون معماریای پیشرفته یادگیری عمیق هستن، و دوتا مدل معروف نسل جدید به اسم Hubert و Wav2vec2 رو که مخصوص پردازش صوت هستن (اینا همون مدلهایی هستن که خیلی راحت میتونن ویژگیهای مخفی تو یه صدای تقلبی رو شکار کنن). هر کدومشون رو با ورودی و خروجیها و ازمون-خطای متفاوتی تست کردن تا بفهمن کدوم بهتر جواب میده.
یه کاری هم که کردن این بود که مدلهاشون رو با دادههای مخصوصِ جملههای تقلبی آموزش دادن؛ یعنی به مدل یاد دادن هر وقت با تقلبی برخورد کردی، ردش رو پیدا کن.
حالا واسه اینکه این اطلاعات مختلف رو جمع کنن و قدرت تشخیص رو ببرن بالا، از یه رویکرد به اسم “adaptive multi-scale feature fusion” یا همون AMFF استفاده کردن (یه جور ترکیب حرفهای ویژگیهای مختلف صدا، از چندلایه مختلف مدل). این روش کمک میکنه هم اطلاعات ریز و هم اطلاعات کلی از صدا رو با هم قاطی کنن، تا بهتر از پسِ متقلبا بربیان!
یه بخش دیگه پروژه شون هم این بود که کلی آزمایش روی loss function های مختلف کردن. بچههایی که با یادگیری ماشین سر و کار دارن میدونن که loss function همون معیاره که مدل باهاش یاد میگیره چی خوبه و چی بد. اومدن مدلشونو با انواع loss برگزار کردن و تنظیماتش رو بهینه کردن تا مخصوص شناسایی صوتهای تقلبی بشه.
یه بخش جذابش اینجاست: در نهایت وقتی همه راهحلها رو ترکیب کردن (یعنی یه سیستم fusion ساختن)، به چی رسیدن؟ تو حالت بسته (closed condition، یعنی فقط با دادههای تمرینی کار میکنی)، minDCF شون 0.4783 شد و EER شون 20.45%. اگه براتون سواله این اعداد چیه: minDCF یه شاخص کارایی هست برای مدلهای امنیتی، هر چی کمتر باشه بهتره؛ EER هم درصد خطای مدل موقع تصمیم گرفتن بین صداهای تقلبی و واقعیست، اینم هر چی پایینتر باشه بهتره. تو حالت باز (open condition، یعنی با دادههایی که مدل تا حالا ندیده)، نتایج خیلی بهتر شد: minDCF = 0.2245 و EER فقط 9.36%.
در کل این مقاله نتیجه میگیره که انتخاب ورودی درست، مدل مناسب و ترکیب چند تکنیک هوشمند میتونه سیستمهای تشخیص deepfake صوتی رو خیلی قویتر کنه و حسابی جلوی تقلبهای صوتی رو بگیره. خلاصه، اگر یه روز خواستید تفاوت صدای تقلبی با واقعی رو بفهمید، این روشها و اعدادی که دیدید، پایهی کارهای باحاله!
منبع: +