توسعه سمعکی که به کمک هوش مصنوعی لب خوانی می کند

انتشار: ۱۹ شهریور ۱۴۰۱

یک سیستم جدید که قادر به خواندن لب ها با دقت قابل توجهی است، حتی زمانی که بلندگوها از ماسک صورت استفاده می کنند، می تواند به ایجاد نسل جدیدی از سمعک کمک کند.
یک تیم بین المللی از مهندسان و دانشمندان محاسباتی این فناوری را توسعه دادند که حسگر فرکانس رادیویی را برای اولین بار با هوش مصنوعی جفت می کند تا حرکات لب را شناسایی کند.
این سیستم، زمانی که با فناوری سمعک معمولی ادغام شود، می‌تواند به مقابله با «اثر مهمانی شبانه»، یک نقص رایج سمعک‌های سنتی، کمک کند.
در حال حاضر، سمعک ها با تقویت تمام صداهای محیط اطراف به افراد کم شنوا کمک می کنند، که می تواند در بسیاری از جنبه های زندگی روزمره مفید باشد.
با این حال، در موقعیت‌های پر سر و صدا مانند مهمانی‌های شبانه، طیف وسیع تقویت سمعک‌ها می‌تواند تمرکز روی صداهای خاص مانند مکالمه با یک فرد خاص را برای کاربران دشوار کند.
یکی از راه‌حل‌های بالقوه برای جلوه مهمانی شبانه، ساخت سمعک‌های «هوشمند» است که تقویت‌کننده صوتی معمولی را با دستگاه دوم برای جمع‌آوری داده‌های اضافی برای بهبود عملکرد ترکیب می‌کند.
در حالی که سایر محققان در استفاده از دوربین برای کمک به لب‌خوانی موفق بوده‌اند، جمع‌آوری فیلم‌های ویدئویی از افراد بدون رضایت صریح آنها نگرانی‌هایی را برای حفظ حریم خصوصی افراد ایجاد می‌کند. دوربین‌ها همچنین نمی‌توانند لب‌ها را از طریق ماسک بخوانند، این یک چالش روزمره برای افرادی است که برای اهداف فرهنگی یا مذهبی از پوشش صورت استفاده می‌کنند.
در مقاله جدیدی که امروز در مجله Nature Communications منتشر شد، محققان دانشگاه گلاسکو چگونگی استفاده از فناوری حسگر پیشرفته را برای خواندن لب ها بیان می کند. سیستم آنها تنها با جمع آوری داده های فرکانس رادیویی، بدون فیلم ویدئویی، حریم خصوصی را حفظ می کند.
برای توسعه این سیستم، محققان از داوطلبان زن و مرد خواستند که ابتدا در حالی که ماسک ندارند و سپس در حالی که ماسک جراحی دارند، پنج صدای مصوت (A، E، I، O و U) را تکرار کنند.
هنگامی که داوطلبان صداهای صدادار را تکرار می کردند، صورت آنها با استفاده از سیگنال های فرکانس رادیویی از یک سنسور رادار اختصاصی و یک فرستنده وای فای اسکن شد. صورت آنها نیز در حالی که لب هایشان ثابت مانده بود اسکن شد.
سپس، از ۳۶۰۰ نمونه داده جمع‌آوری‌شده در طول اسکن‌ها برای «آموزش» الگوریتم‌های یادگیری ماشین و یادگیری عمیق استفاده شد که چگونه حرکات مشخصه لب و دهان مرتبط با هر صدای مصوت را تشخیص دهند.
از آنجایی که سیگنال‌های فرکانس رادیویی می‌توانند به راحتی از ماسک‌های داوطلبان عبور کنند، الگوریتم‌ها همچنین می‌توانند شکل‌گیری واکه‌های کاربران نقاب‌دار را بخوانند.
این سیستم ثابت کرد که قادر به خواندن صحیح لب های داوطلبان در بیشتر مواقع است. داده‌های وای‌فای تا ۹۵ درصد برای لب‌های بدون نقاب و ۸۰ درصد برای لب‌های ماسک‌دار به درستی توسط الگوریتم‌های یادگیری تفسیر شدند. این در حالی است که داده های رادار تا ۹۱ درصد بدون ماسک و ۸۳ درصد مواقع با ماسک به درستی تفسیر شده اند.
دکتر قمر عباسی گفت: «حدود پنج درصد از جمعیت جهان – حدود ۴۳۰ میلیون نفر نوعی اختلال شنوایی دارند.
سمعک برای بسیاری از افراد کم شنوا فواید دگرگون کننده ای به همراه داشته است. نسل جدیدی از فناوری که طیف گسترده ای از داده ها را برای تقویت و تقویت صدا جمع آوری می کند، می تواند گام بزرگ دیگری در بهبود کیفیت زندگی افراد کم شنوایی باشد.
با این تحقیقات، ما نشان دادیم که سیگنال‌های فرکانس رادیویی می‌توانند برای خواندن دقیق صداهای صدادار روی لب‌های افراد، حتی زمانی که دهانشان پوشیده است، استفاده شود. »

کد خبر ۲۰۱۰۱۰۶۱۹.۵۳۱