اکثر کسانی که از هدفون های حذف نویز استفاده می کنند می دانند که شنیدن صدای مناسب در زمان مناسب می تواند حیاتی باشد.
اکنون، تیمی به سرپرستی محققان دانشگاه واشنگتن الگوریتمهای یادگیری عمیقی را توسعه دادهاند که به کاربران اجازه میدهد صداهایی را که از طریق هدفونهایشان فیلتر میشوند، در زمان واقعی انتخاب کنند. این تیم این سیستم را “شنیدن معنایی” می نامد. هدفون صدای ضبط شده را به تلفن هوشمند متصل پخش می کند، که همه صداهای محیطی را لغو می کند. از طریق دستورات صوتی یا یک برنامه تلفن هوشمند، هدفونها میتوانند صداهایی را که میخواهند از بین ۲۰ کلاس انتخاب کنند، مانند آژیر، گریه کودک، گفتار، جاروبرقی و صدای جیر جیر پرندگان. فقط صداهای انتخاب شده از طریق هدفون پخش خواهند شد.
شیام گولاکوتا، نویسنده ارشد این مقاله، استاد دانشگاه پاول جی آلن، میگوید: «درک صدای یک پرنده و استخراج آن از همه صداهای دیگر در یک محیط مستلزم هوشمندی در زمان واقعی است که هدفونهای حذف نویز امروزی به آن دست پیدا نکردهاند. چالش این است که صداهایی که هدفونها میشنوند باید با حواس بینایی آنها همگام شوند. شما نمی توانید صدای کسی را دو ثانیه پس از صحبت با شما بشنوید. این بدان معناست که الگوریتمهای عصبی باید صداها را در کمتر از یک صدم ثانیه پردازش کنند.»
به دلیل این تنگنای زمانی، سیستم شنوایی معنایی باید صداها را به جای روی سرورهای ابری قویتر، در دستگاهی مانند تلفن هوشمند متصل پردازش کند. علاوه بر این، از آنجایی که صداها از جهات مختلف در زمانهای مختلف به گوش افراد میرسند، سیستم باید این تأخیرها و سایر نشانههای فضایی را حفظ کند تا افراد همچنان بتوانند به طور معناداری صداهای محیط خود را درک کنند.
این سیستم که در محیطهایی مانند دفاتر، خیابانها و پارکها آزمایش شد، توانست آژیرها، صدای پرندگان، آلارمها و سایر صداهای هدف را استخراج کند و در عین حال تمام نویزهای دنیای واقعی را حذف کند. هنگامی که ۲۲ شرکت کننده خروجی صوتی سیستم را برای صدای هدف ارزیابی کردند، گفتند که به طور متوسط کیفیت در مقایسه با ضبط اصلی بهبود یافته است.
در برخی موارد، سیستم برای تمایز بین صداهایی که ویژگیهای مشترک زیادی دارند، مانند موسیقی آوازی و گفتار انسان، با مشکل مواجه شد. محققان خاطرنشان می کنند که آموزش مدل ها بر روی داده های دنیای واقعی بیشتر ممکن است این نتایج را بهبود بخشد.