همه چیز درباره XMUspeech برای چالش ASVspoof 5: چطور سیستمِ ما با تقلب‌های صوتی مقابله میکنه!

Fall Back

خب بچه‌ها، امروز میخوام درباره یه پروژه خیلی جالب تو حوزه تبدیل صوت (تقلبی و واقعی) یعنی همون Deepfake صوتی حرف بزنم. ماجرای ASVspoof 5 Challenge هم همینه: ببینیم سیستم‌ها چقدر خوب میتونن تشخیص بدن یه صدای ضبط شده واقعیه یا تقلبیه. تو این مقاله دارم براتون توضیح میدم که تیم XMUspeech تو این چالش چه کارهایی انجام داده و چه نکته‌هایی یاد گرفته.

اول از همه، بگم که تو این دوره جدید چالش، داده‌های صوتی‌ای که شرکت‌کننده‌ها باید باهاش کارکنن خیلی طولانی‌تر شده! مثلاً شما رو فرض کنین قبلاً باید یه تیکه چند ثانیه‌ای رو تشخیص می‌دادین، الان باید با یه فایل صوتی حسابی طرف باشین. جالبیش اینجاست که وقتی فقط طول صدا رو درست تنظیم کردن، نتیجه کلاً بهتر شد، یعنی خود این موضوع خیلی مهم بود!

حالا واسه اینکه بتونن ردپای تقلب یا همون artifact رو تو صدا پیدا کنن، تیم XMUspeech چه مدل‌هایی رو امتحان کرد؟ مدل‌هایی مثل AASIST و HM-Conformer که خودشون معماریای پیشرفته یادگیری عمیق هستن، و دوتا مدل معروف نسل جدید به اسم Hubert و Wav2vec2 رو که مخصوص پردازش صوت هستن (اینا همون مدل‌هایی هستن که خیلی راحت می‌تونن ویژگی‌های مخفی تو یه صدای تقلبی رو شکار کنن). هر کدومشون رو با ورودی و خروجی‌ها و ازمون-خطای متفاوتی تست کردن تا بفهمن کدوم بهتر جواب میده.

یه کاری هم که کردن این بود که مدل‌هاشون رو با داده‌های مخصوصِ جمله‌های تقلبی آموزش دادن؛ یعنی به مدل یاد دادن هر وقت با تقلبی برخورد کردی، ردش رو پیدا کن.

حالا واسه اینکه این اطلاعات مختلف رو جمع کنن و قدرت تشخیص رو ببرن بالا، از یه رویکرد به اسم “adaptive multi-scale feature fusion” یا همون AMFF استفاده کردن (یه جور ترکیب حرفه‌ای ویژگی‌های مختلف صدا، از چندلایه مختلف مدل). این روش کمک می‌کنه هم اطلاعات ریز و هم اطلاعات کلی از صدا رو با هم قاطی کنن، تا بهتر از پسِ متقلبا بربیان!

یه بخش دیگه پروژه شون هم این بود که کلی آزمایش روی loss function های مختلف کردن. بچه‌هایی که با یادگیری ماشین سر و کار دارن می‌دونن که loss function همون معیاره که مدل باهاش یاد می‌گیره چی خوبه و چی بد. اومدن مدل‌شونو با انواع loss برگزار کردن و تنظیماتش رو بهینه کردن تا مخصوص شناسایی صوت‌های تقلبی بشه.

یه بخش جذابش اینجاست: در نهایت وقتی همه راه‌حل‌ها رو ترکیب کردن (یعنی یه سیستم fusion ساختن)، به چی رسیدن؟ تو حالت بسته (closed condition، یعنی فقط با داده‌های تمرینی کار می‌کنی)، minDCF شون 0.4783 شد و EER شون 20.45%. اگه براتون سواله این اعداد چیه: minDCF یه شاخص کارایی هست برای مدل‌های امنیتی، هر چی کمتر باشه بهتره؛ EER هم درصد خطای مدل موقع تصمیم گرفتن بین صداهای تقلبی و واقعی‌ست، اینم هر چی پایین‌تر باشه بهتره. تو حالت باز (open condition، یعنی با داده‌هایی که مدل تا حالا ندیده)، نتایج خیلی بهتر شد: minDCF = 0.2245 و EER فقط 9.36%.

در کل این مقاله نتیجه میگیره که انتخاب ورودی درست، مدل مناسب و ترکیب چند تکنیک هوشمند می‌تونه سیستم‌های تشخیص deepfake صوتی رو خیلی قوی‌تر کنه و حسابی جلوی تقلب‌های صوتی رو بگیره. خلاصه، اگر یه روز خواستید تفاوت صدای تقلبی با واقعی رو بفهمید، این روش‌ها و اعدادی که دیدید، پایه‌ی کارهای باحاله!

منبع: +