تبدیل امواج مغزی به گفتار با هوش مصنوعی برای افراد فلج

انتشار: 16 فروردین 1404

پژوهشگران دانشگاه‌های کالیفرنیا برکلی و سانفرانسیسکو موفق به توسعه یک سیستم پیشرفته مبتنی بر هوش مصنوعی شده‌اند که می‌تواند گفتار طبیعی را برای افراد فلج به‌صورت هم‌زمان و با استفاده از صدای واقعی خود فرد بازسازی کند.

این فناوری نوین با بهره‌گیری از دستگاه‌هایی که فعالیت عصبی مغز را اندازه‌گیری می‌کنند و الگوریتم‌هایی که یاد می‌گیرند چگونه صداهای صدای فرد را بازسازی کنند، گامی فراتر از دستاوردهای اخیر در حوزه رابط‌های مغز و کامپیوتر (BCI) برداشته است.

دکتر گوپالا آنومانچی‌پالی، استاد مهندسی برق و علوم کامپیوتر در دانشگاه برکلی و یکی از نویسندگان این پژوهش که در نشریه Nature Neuroscience منتشر شده، گفت:
«رویکرد پخش هم‌زمان ما همان توانایی رمزگشایی سریع گفتار را که در دستگاه‌هایی مانند الکسا و سیری دیده می‌شود، به نوراپروتزها آورده است. با الگوریتمی مشابه، توانستیم داده‌های عصبی را رمزگشایی کرده و برای نخستین بار، پخش گفتار تقریباً هم‌زمان را ممکن کنیم؛ نتیجه آن تولید گفتاری روان و طبیعی‌تر است.»

این سیستم می‌تواند با انواع مختلف رابط‌های اندازه‌گیری فعالیت مغز کار کند؛ از جمله الکترودهای متراکم متصل به سطح مغز، الکترودهای نفوذی، و حسگرهای غیرتهاجمی مانند سنسورهای الکترومایوگرافی سطحی (sEMG) بر روی صورت.

نحوه عملکرد فناوری به این صورت است: ابتدا نوراپروتز داده‌های عصبی را از قشر حرکتی مغز که مسئول تولید گفتار است، دریافت می‌کند. سپس هوش مصنوعی این داده‌ها را به گفتار رمزگشایی می‌کند.
چئول جون چو، از نویسندگان مقاله، در این باره گفت:
«ما در واقع افکار پس از تصمیم‌گیری را رمزگشایی می‌کنیم؛ یعنی بعد از آنکه فرد تصمیم گرفته چه بگوید و چگونه عضلات گفتاری‌اش را به حرکت درآورد.»

برای آموزش سیستم، ابتدا داده‌های مغزی از فرد هنگام تلاش بی‌صدا برای گفتن کلمات روی صفحه نمایش ثبت شد و سپس این داده‌ها با کلماتی که فرد در ذهن داشت تطبیق داده شد. علاوه بر این، برای تولید صدایی که شنیده می‌شود، از مدلی استفاده شده که با صدای فرد قبل از آسیب و فلج شدن آموزش دیده است.

در آزمایش اولیه، گرچه گفتار تولیدشده کاملاً بی‌نقص یا طبیعی نبود، اما بسیار نزدیک به گفتار واقعی بود. این سیستم توانست در کمتر از یک ثانیه پس از تلاش ذهنی فرد برای صحبت، گفتار را آغاز کند؛ در حالی که در پژوهش قبلی در سال ۲۰۲۳ این زمان ۸ ثانیه بود.

این پیشرفت می‌تواند کیفیت زندگی افراد دچار فلج و بیماری‌هایی مانند ALS را به طور چشمگیری بهبود بخشد و امکان برقراری ارتباط طبیعی‌تر با اطرافیان را برای آن‌ها فراهم کند.

محققان در گام‌های بعدی قصد دارند سرعت پردازش گفتار توسط هوش مصنوعی را افزایش داده و روی بهبود حالت‌های احساسی در صدای خروجی کار کنند.

کد خبر ۲۰۱۰۴۰۱۱۶.۱۳۵

منبع:نیواطلس