هک کردن تشخیص صدا: چطور مدل‌های ASR رو زرنگ‌تر دور می‌زنن!

تا حالا اسم ASR به گوشت خورده؟ همون سیستم‌هایی که حرف ما رو به نوشته تبدیل می‌کنن، مثلاً «automatic speech recognition» یعنی تشخیص خودکار گفتار. الان این مدل‌ها توی کلی اپلیکیشن و وسیله‌های مختلف به کار میرن؛ از موبایل گرفته تا دستیارهای صوتی و حتی زیرنویس فیلم‌ها.

حالا خبر جالب اینه که دانشمندان یه مدت هست فهمیدن میشه به این سیستم‌ها حمله کرد! یعنی چی؟ یعنی میشه کاری کرد که این مدل‌ها اشتباه کنن یا اصلاً صدا رو درست ننویسن. این کار رو می‌گن “حملهٔ Adversarial” یا حملهٔ خصمانه. معنی ساده‌ش اینه که مخفیانه یه جور تغییر یا نویزی تو صدا ایجاد می‌کنن که مغز ما اصلاً متوجهش نمیشه، ولی مدل ASR رو حسابی گیج می‌کنه!

توی یه تحقیق جدید (که شماره مقاله‌ش arXiv:2508.09994 هست)، چندتا کار باحال بررسی کردن:

اول: اومدن چک کردن این حمله‌ها چقدر قوی و واقعی عمل می‌کنن. یعنی واقعاً میشه مدل رو از کار انداخت یا نه؟ نتایج نشون داد، آره میشه!

بعدش، به یه نکته زیرکانه رسیدن. تا حالا همه دوست داشتن مدل ASR رو کامل خاموش کنن (یعنی “complete suppression” – یعنی کل خروجی مدل رو قطع کنن)، اما فهمیدن اصلاً لازم نیست تا تهش برن! اگه فقط بخوایم مقدار کمی خروجی مدل رو ضعیف کنیم (بهش میگن “partial suppression” – یعنی سر و ته خروجی رو بزنی، ولی کامل خفه‌ش نکنی)، اون حمله‌ها حتی غیرقابل تشخیص‌تر و مخفی‌تر میشن.

این یعنی چی؟ یعنی دیگه آدم‌ها احتمالاً اصلاً نمی‌فهمن داره یه کار عجیبی تو صداشون انجام میشه، اما مدل حسابی گول می‌خوره!

با این حال، کامل هم منفعل نبودن و دفاعم بررسی کردن. یه راه دفاعی که روش کار کردن چیزی بود به اسم “low-pass filter” – یعنی فیلتر پایین‌گذر، که ساده‌ش میشه: فقط فرکانس‌های پایین صدای اصل رو رد می‌کنه و فرکانس‌های اضافی رو حذف می‌کنه. این روش تا حدی جلوی این حمله‌ها رو می‌گیره و می‌تونه موثر باشه.

خلاصه داستان اینکه: مدل‌های تشخیص صدا خیلی باهوشن ولی هنوزم میشه گولشون زد! مخصوصاً اگر زرنگ بازی دربیاریم و به‌جای اینکه بخوایم کل مدل رو خاموش کنیم، فقط یه خورده تو کارش اختلال بندازیم، احتمال شناسایی شدن حمله خیلی کمتر میشه. البته فیلتر پایین‌گذر می‌تونه تا حدی موثر باشه، اما این رقابت بین هکرها و محافظ‌ها (حمله کننده و دفاع‌کننده!) فعلاً ادامه داره.

پس اگر دفعه بعد جمله‌تون تو زیرنویس موبایل اشتباه نوشته شد، شاید تقصیر یکی از همین حمله‌های هوشمند باشه! 😉

منبع: +