تا حالا براتون پیش اومده توی یه کافه یا مهمونی، همه دارن با صدای بلند حرف میزنن و شما باید زور بزنین که فقط حرف دوستتون رو متوجه شین؟ یا مثلاً موزیک هست، صدای بشقاب و لیوان میاد، چند نفر باهم حرف میزنن و مغزتون واقعا خسته میشه تا بفهمین کی چی گفته؟ حالا این رو سختتر کنین واسه کسی که کمشنواست یا حس شنوایی ضعیفتری داره. واقعاً موقعیت طاقتفرساییه.
ولی یه تیم از محققها توی دانشگاه واشنگتن اومدن یه حرکت فوقالعاده باحال زدن: هدفونهایی ساختن که با هوش مصنوعی کار میکنه و صداهای اضافی رو حذف میکنه؛ یعنی فقط مکالمهای که دوست دارین رو میذاره توی گوشتون، بقیه رو حذف میکنه!
حالا این داستان چجوری کار میکنه؟ برعکس خیلی از وسایل شنوایی معمولی که باید خودت تنظیمشون کنی یا بهشون بگی دقیقاً دنبال کدوم صدا هستی، این هدفون خیلی شیک خودش تشخیص میده کی داره با شما حرف میزنه. اصلاً به ورودی دستی نیازی نداره! یعنی نیازی به فشردن دکمه یا انتخاب کردن نفر نیست. اینم نگم که اکثر سیستمهای قبلی واقعا سخت بودن و حتی بعضیاشون نیاز به الکترود داخل مغز داشتن تا مشخص کنن حواست به کیه! (الکترود یعنی یه سیم نازک که باید توی مغز جاگذاری شه – هم خوفه هم عذابآور) اما الان هوش مصنوعی اومده با الگوریتمهای خودش این کار رو با صِدای خالی انجام میده!
ماجراش اینجوریه که دو تا مدل هوش مصنوعی پشتش هست. یکی الگوی زمانی صحبتکردن آدما رو ردیابی میکنه. یعنی مثلاً تشخیص میده کی حرفش تموم شد، کی شروع کرد (که بهش میگن ریتم turn-taking یا همون نوبتی صحبتکردن آدمها توی گفتوگو). مدل دوم هم صداهای مزاحم اطراف رو پاک میکنه تا فقط صدای موردنظر باکیفیت بالا به گوش کاربر برسه.
جالبیش اینه که کل پروسه تشخیص آدمای مکالمه فقط بین ۲ تا ۴ ثانیه طول میکشه! تازه وقتی شما شروع به حرف زدن میکنین، سیستم به صورت اتوماتیک فعال میشه؛ نه لازم انتخاب کنین و نه لازم نگاه کنین به کسی! این یعنی مکالمه طبیعی و بدون زحمت.
تو یکی از کنفرانسهای مطرح توی چین (Empirical Methods in Natural Language Processing یا به اختصار EMNLP – یکی از معتبرترین کنفرانسهای هوش مصنوعی زبان)، این تیم تحقیق رو ارائه دادن و حتی کدهای نرمافزاریش رو هم اوپن سورس (یعنی همه رایگان میتونن ببینن و استفاده کنن) کردن. خلاصه کلی مورد توجه قرار گرفتن.
این هدفون الان تا پنج نفر رو توی مکالمه بدون تاخیر خاصی ساپورت میکنه. یعنی اگه یه جمع دوستانه داشته باشین، همه رو خیلی شفاف و با صدای واضح میشنوین و صداهای بقیه اطراف یا محیط حذف میشه. محققها اومدن با ۱۱ نفر این گجت رو تست کردن و نتیجه این شد که وقتی فیلتر روشن بود، وضوح و کیفیت صداها بیش از دو برابر بهتر از حالت عادی بود.
قبلاً نسخههای اولیه این هدفون یه باگی داشتن اینکه باید به طرف مقابل نگاه میکردین یا هی فاصله رو تنظیم میکردین تا صداش رو بگیرین. ولی الان دیگه نیازی نیست؛ خودش میفهمه کی داره باهاتون صحبت میکنه.
یکی از اعضای تیم به اسم گویلین هو گفته: «تا قبل این همیشه باید دستی انتخاب میکردی کی رو گوش بدی یا فاصله رو مشخص میکردی، این اصلاً حس خوبی نداشت. ولی الان سیستم ما اتوماتیکه و بدون دخالت خود آدم، خودش تصمیم میگیره.»
البته مثل همیشه، مشکلات کوچیک هم هست. مثلاً اگه همه باهم شروع کنن حرف زدن یا وسط مکالمه یکی بپره وسط، سیستم ممکنه گیج بشه و درست تشخیص نده! اما اوایل کاره و عملکرد فعلیشون خود محققها رو هم هیجانزده کرده.
جالب اینجاست که این مدلها فعلاً فقط برای انگلیسی، چینی (ماندارین) و ژاپنی آموزش دیدن. اگه بخواید واسه زبانهای دیگه استفاده کنین باید یه کم تغییر بدن.
الان هم نمونه اولیه رو روی هدفونهای دورگوشی معمولی و یه مدار ساده اجرا کردن. ولی هدف آینده اینه که وارد هندزفری (Earbuds یعنی هندزفری کوچیک بیسیم)، سمعک و حتی عینکهای هوشمند شه.
یه پروژه دیگه هم همزمان دارن که نشون داده همین مدلهای هوش مصنوعی رو میشه روی چیپهای خیلی ریز که داخل سمعک جا میشن هم اجرا کرد، پس تکنولوژیه قابل رشدی هست.
در آخر هم باید گفت که این تحقیق توی «ACL Anthology» به عنوان بخشی از کنفرانس EMNLP 2025 منتشر شده و میتونه زندگی خیلیها رو تغییر بده. حالا اگه دفعه بعد توی یه مهمونی کسی رو دیدین که ظاهراً بدون سختی و با لبخند حرفهای شما رو توی شلوغی میشنوه، احتمالاً از همین تکنولوژی استفاده میکنه!
منبع: +