هدفون‌های باحال جدید با کمک هوش مصنوعی: دلخواهت رو توی شلوغی بشنو!

تا حالا براتون پیش اومده توی یه کافه یا مهمونی، همه دارن با صدای بلند حرف می‌زنن و شما باید زور بزنین که فقط حرف دوست‌تون رو متوجه شین؟ یا مثلاً موزیک هست، صدای بشقاب و لیوان میاد، چند نفر باهم حرف می‌زنن و مغزتون واقعا خسته میشه تا بفهمین کی چی گفته؟ حالا این رو سخت‌تر کنین واسه کسی که کم‌شنواست یا حس شنوایی ضعیف‌تری داره. واقعاً موقعیت طاقت‌فرساییه.

ولی یه تیم از محقق‌ها توی دانشگاه واشنگتن اومدن یه حرکت فوق‌العاده باحال زدن: هدفون‌هایی ساختن که با هوش مصنوعی کار می‌کنه و صداهای اضافی رو حذف می‌کنه؛ یعنی فقط مکالمه‌ای که دوست دارین رو می‌ذاره توی گوشتون، بقیه رو حذف می‌کنه!

حالا این داستان چجوری کار می‌کنه؟ برعکس خیلی از وسایل شنوایی معمولی که باید خودت تنظیمشون کنی یا بهشون بگی دقیقاً دنبال کدوم صدا هستی، این هدفون خیلی شیک خودش تشخیص می‌ده کی داره با شما حرف می‌زنه. اصلاً به ورودی دستی نیازی نداره! یعنی نیازی به فشردن دکمه یا انتخاب کردن نفر نیست. اینم نگم که اکثر سیستم‌های قبلی واقعا سخت بودن و حتی بعضیاشون نیاز به الکترود داخل مغز داشتن تا مشخص کنن حواست به کیه! (الکترود یعنی یه سیم نازک که باید توی مغز جاگذاری شه – هم خوفه هم عذاب‌آور) اما الان هوش مصنوعی اومده با الگوریتم‌های خودش این کار رو با صِدای خالی انجام می‌ده!

ماجراش اینجوریه که دو تا مدل هوش مصنوعی پشتش هست. یکی الگوی زمانی صحبت‌کردن آدما رو ردیابی می‌کنه. یعنی مثلاً تشخیص می‌ده کی حرفش تموم شد، کی شروع کرد (که بهش می‌گن ریتم turn-taking یا همون نوبتی صحبت‌کردن آدم‌ها توی گفت‌وگو). مدل دوم هم صداهای مزاحم اطراف رو پاک می‌کنه تا فقط صدای موردنظر باکیفیت بالا به گوش کاربر برسه.

جالبیش اینه که کل پروسه تشخیص آدمای مکالمه فقط بین ۲ تا ۴ ثانیه طول می‌کشه! تازه وقتی شما شروع به حرف زدن می‌کنین، سیستم به صورت اتوماتیک فعال میشه؛ نه لازم انتخاب کنین و نه لازم نگاه کنین به کسی! این یعنی مکالمه طبیعی و بدون زحمت.

تو یکی از کنفرانس‌های مطرح توی چین (Empirical Methods in Natural Language Processing یا به اختصار EMNLP – یکی از معتبرترین کنفرانس‌های هوش مصنوعی زبان)، این تیم تحقیق رو ارائه دادن و حتی کدهای نرم‌افزاریش رو هم اوپن سورس (یعنی همه رایگان می‌تونن ببینن و استفاده کنن) کردن. خلاصه کلی مورد توجه قرار گرفتن.

این هدفون الان تا پنج نفر رو توی مکالمه بدون تاخیر خاصی ساپورت می‌کنه. یعنی اگه یه جمع دوستانه داشته باشین، همه رو خیلی شفاف و با صدای واضح می‌شنوین و صداهای بقیه اطراف یا محیط حذف میشه. محقق‌ها اومدن با ۱۱ نفر این گجت رو تست کردن و نتیجه این شد که وقتی فیلتر روشن بود، وضوح و کیفیت صداها بیش از دو برابر بهتر از حالت عادی بود.

قبلاً نسخه‌های اولیه این هدفون یه باگی داشتن اینکه باید به طرف مقابل نگاه می‌کردین یا هی فاصله رو تنظیم می‌کردین تا صداش رو بگیرین. ولی الان دیگه نیازی نیست؛ خودش می‌فهمه کی داره باهاتون صحبت می‌کنه.

یکی از اعضای تیم به اسم گویلین هو گفته: «تا قبل این همیشه باید دستی انتخاب می‌کردی کی رو گوش بدی یا فاصله رو مشخص می‌کردی، این اصلاً حس خوبی نداشت. ولی الان سیستم ما اتوماتیکه و بدون دخالت خود آدم، خودش تصمیم می‌گیره.»

البته مثل همیشه، مشکلات کوچیک هم هست. مثلاً اگه همه باهم شروع کنن حرف زدن یا وسط مکالمه یکی بپره وسط، سیستم ممکنه گیج بشه و درست تشخیص نده! اما اوایل کاره و عملکرد فعلی‌شون خود محقق‌ها رو هم هیجان‌زده کرده.

جالب اینجاست که این مدل‌ها فعلاً فقط برای انگلیسی، چینی (ماندارین) و ژاپنی آموزش دیدن. اگه بخواید واسه زبان‌های دیگه استفاده کنین باید یه کم تغییر بدن.

الان هم نمونه اولیه رو روی هدفون‌های دورگوشی معمولی و یه مدار ساده اجرا کردن. ولی هدف آینده اینه که وارد هندزفری (Earbuds یعنی هندزفری کوچیک بی‌سیم)، سمعک و حتی عینک‌های هوشمند شه.

یه پروژه دیگه هم هم‌زمان دارن که نشون داده همین مدل‌های هوش مصنوعی رو میشه روی چیپ‌های خیلی ریز که داخل سمعک جا میشن هم اجرا کرد، پس تکنولوژیه قابل رشدی هست.

در آخر هم باید گفت که این تحقیق توی «ACL Anthology» به عنوان بخشی از کنفرانس EMNLP 2025 منتشر شده و می‌تونه زندگی خیلی‌ها رو تغییر بده. حالا اگه دفعه بعد توی یه مهمونی کسی رو دیدین که ظاهراً بدون سختی و با لبخند حرف‌های شما رو توی شلوغی می‌شنوه، احتمالاً از همین تکنولوژی استفاده می‌کنه!

منبع: +