ردیابی مکالمه‌های گوشی از فاصله ۳ متری؟ با هوش مصنوعی هر حرفت شنیده میشه!

تا حالا فکر کردی وقتی با گوشیت حرف می‌زنی، حتی ویبره‌های ریزی که حسشون هم نمی‌کنی می‌تونه راز حرف‌هات رو لو بده؟ راستش یه تیم باحال از پژوهش‌گرای کامپیوتر تو دانشگاه Penn State دست به یه کار عجیب زدن که واقعا آدم رو تو کف می‌ذاره: تونستن با استفاده از رادار و هوش مصنوعی، مکالمه‌های افراد رو از فاصله سه متری شنود کنن! یعنی حتی اگه کسی کنار آدم نباشه باز احتمال اینکه بفهمن داری چی میگی هست.

حالا میپرسی چطور؟ بزار توضیح بدم. اینا از یه چیزی به اسم millimeter-wave radar استفاده کردن. این رادارهای موج میلیمتری همون تکنولوژی‌ای هستن که تو ماشین‌های خودران (اون ماشین‌هایی که خودشون رانندگی می‌کنن)، سنسورهای حرکتی خفن و حتی تو شبکه‌های 5G استفاده میشن. کاری که این رادار می‌کنه، گرفتن ویبره‌های ریزی هست که وقتی صدای طرف مقابل از گوشی درمیاد (یعنی همون صدای هندست موقع صحبت)، باعث لرزش خیلی کم کل گوشی میشه.

توی پروژه اولشون که سال ۲۰۲۲ انجام دادن، فقط تونستن ده تا کلمه مشخص رو با دقت ۸۳ درصد تشخیص بدن. اما الان کارشون رو گسترش دادن و رفتن سراغ اینکه جملات پیوسته رو از روی این لرزش‌های ریز بخونن. خب طبیعیه کار سخت‌تر بشه و دقتش بیاد پایین‌تر (الان حدود ۶۰ درصد شده)، چون داده‌های راداری حسابی نویز دارن و سر و صدا زیاد توشونه.

اما بخش جالب کار اینجاست: داده‌هایی که رادار جمع می‌کنه، خودش خیلی بهم ریخته‌س، اصلا مثل صدای تمیز که راحت میشه پیاده‌سازی‌ش کرد نیست. واسه همین این تیم رفته سراغ یه مدل هوش مصنوعی به اسم Whisper که خودش یه پروژه اوپن سورس (متن باز) برای تشخیص گفتاره. Whisper معمولاً با صداهای باکیفیت کار می‌کرده، اما اینا یه ترفند باحال زدن و فقط ۱ درصد پارامترهای این مدل رو به کمک یه تکنیک به اسم low-rank adaptation مخصوص داده‌های راداری آموزش دادن. اینطوری بدون اینکه کل مدل رو از اول بسازن، تونستن دقت رو بهتر کنن!

سوریودای باساک (که دانشجوی دکتری کامپیوتره و مسئول اصلی پروژه)، میگه: «وقتی با گوشی حرف می‌زنیم، اصلاً به اون لرزش‌های ریز فکر نمی‌کنیم. اما اگه همین لرزش‌ها رو با رادار بگیریم و هوش مصنوعی بیاد کمک، با استفاده از نشونه‌های زمینه‌ای میشه کل مکالمه رو حدس زد!»

واقعیتش این دستاورد می‌تونه حسابی برای حفظ حریم خصوصی خطرناک باشه. نوآوری این تیم باعث شده همه بفهمن حتی اگه دقت سیستماشون صد در صد نیست، همون بخش‌های تشخیصی ناقص یا برداشت چندتا کلیدواژه می‌تونه تو مسائل امنیتی، فاجعه درست کنه.

جالبیش اینه که خودشون هم کارشون رو با لب‌خوانی مقایسه کردن: لب‌خوان‌ها هم معمولاً ۳۰ تا ۴۰ درصد کلمات رو تشخیص می‌دن ولی وقتی با سیاق و اطلاعات قبلی ترکیب بشه، معنای کلی مکالمه دستشون میاد. با این تکنیک هوش مصنوعی و رادار هم حتی اگه کل جمله‌ها دقیق نباشه، باز میشه حدس زد کی چی گفته، مخصوصاً اگه کسی قبلاً یه اطلاعاتی داشته باشه یا متن رو دستی تصحیح کنه.

محقق‌ها تاکید کردن هدفشون کشف نقاط ضعف قبل از سوءاستفاده افراد بدجنسه، نه اینکه به کسی یاد بدن چطور شنود کنه! کل تحقیق با حمایت بنیاد ملی علوم آمریکا انجام شده و قراره باعث بشه مردم نسبت به امنیت تماس‌هاشون آگاه‌تر بشن. اونام خودشون دنبال راه‌هایی برای محافظت از مکالمات در مقابل چنین حملاتی هستن.

آخرش باید حواسمون باشه که تکنولوژی‌هایی مثل AI (همون هوش مصنوعی که خودش فکر می‌کنه و تصمیم می‌گیره)، و پیشرفت‌های بی‌سیم، هر روز ما رو به عصر جدیدی از چالش‌های امنیتی می‌بره. باور کنی یا نه، شاید همین لرزشای آروم گوشی کل راز و رمزهامونو لو بده!

این مطالعه توی کنفرانس WiSec 2025 منتشر شده، که یه رویداد مهم در حوزه امنیت شبکه‌های بی‌سیم و موبایله (یعنی دقیقاً جایی که دغدغه این مسائل زیاد مطرح میشه).

منبع: +