تا حالا اسم ASR به گوشت خورده؟ همون سیستمهایی که حرف ما رو به نوشته تبدیل میکنن، مثلاً «automatic speech recognition» یعنی تشخیص خودکار گفتار. الان این مدلها توی کلی اپلیکیشن و وسیلههای مختلف به کار میرن؛ از موبایل گرفته تا دستیارهای صوتی و حتی زیرنویس فیلمها.
حالا خبر جالب اینه که دانشمندان یه مدت هست فهمیدن میشه به این سیستمها حمله کرد! یعنی چی؟ یعنی میشه کاری کرد که این مدلها اشتباه کنن یا اصلاً صدا رو درست ننویسن. این کار رو میگن “حملهٔ Adversarial” یا حملهٔ خصمانه. معنی سادهش اینه که مخفیانه یه جور تغییر یا نویزی تو صدا ایجاد میکنن که مغز ما اصلاً متوجهش نمیشه، ولی مدل ASR رو حسابی گیج میکنه!
توی یه تحقیق جدید (که شماره مقالهش arXiv:2508.09994 هست)، چندتا کار باحال بررسی کردن:
اول: اومدن چک کردن این حملهها چقدر قوی و واقعی عمل میکنن. یعنی واقعاً میشه مدل رو از کار انداخت یا نه؟ نتایج نشون داد، آره میشه!
بعدش، به یه نکته زیرکانه رسیدن. تا حالا همه دوست داشتن مدل ASR رو کامل خاموش کنن (یعنی “complete suppression” – یعنی کل خروجی مدل رو قطع کنن)، اما فهمیدن اصلاً لازم نیست تا تهش برن! اگه فقط بخوایم مقدار کمی خروجی مدل رو ضعیف کنیم (بهش میگن “partial suppression” – یعنی سر و ته خروجی رو بزنی، ولی کامل خفهش نکنی)، اون حملهها حتی غیرقابل تشخیصتر و مخفیتر میشن.
این یعنی چی؟ یعنی دیگه آدمها احتمالاً اصلاً نمیفهمن داره یه کار عجیبی تو صداشون انجام میشه، اما مدل حسابی گول میخوره!
با این حال، کامل هم منفعل نبودن و دفاعم بررسی کردن. یه راه دفاعی که روش کار کردن چیزی بود به اسم “low-pass filter” – یعنی فیلتر پایینگذر، که سادهش میشه: فقط فرکانسهای پایین صدای اصل رو رد میکنه و فرکانسهای اضافی رو حذف میکنه. این روش تا حدی جلوی این حملهها رو میگیره و میتونه موثر باشه.
خلاصه داستان اینکه: مدلهای تشخیص صدا خیلی باهوشن ولی هنوزم میشه گولشون زد! مخصوصاً اگر زرنگ بازی دربیاریم و بهجای اینکه بخوایم کل مدل رو خاموش کنیم، فقط یه خورده تو کارش اختلال بندازیم، احتمال شناسایی شدن حمله خیلی کمتر میشه. البته فیلتر پایینگذر میتونه تا حدی موثر باشه، اما این رقابت بین هکرها و محافظها (حمله کننده و دفاعکننده!) فعلاً ادامه داره.
پس اگر دفعه بعد جملهتون تو زیرنویس موبایل اشتباه نوشته شد، شاید تقصیر یکی از همین حملههای هوشمند باشه! 😉
منبع: +