هوش مصنوعی مایکروسافت طی سه ثانیه صدای افراد را تقلید می‌کند

انتشار: 8 بهمن 1401
کد خبر: 213011108.556

مایکروسافت از یک هوش مصنوعی شبیه‌ساز صدا رونمایی کرده است که قادر است صدای افراد را پس از فقط سه ثانیه گوش دادن به صحبت‌ کردن آن‌ها، عینا تقلید کند.
سیتنا نوشت، مدل زبان «وال-ای» (VALL-E) با استفاده از شش هزار ساعت سخنرانی انگلیسی از هفت هزار سخنران مختلف آموزش داده شد تا «طرز حرف زدن شخصی‌سازی شده با کیفیت بالا» از هر گوینده نادیده‌ای را بازآفرینی کند.
هنگامی که این دستگاه هوش‌مصنوعی، صدای ضبط‌شده فردی را در اختیار داشته باشد، قادر است صدای او را جوری بازسازی کند که گویی آن شخص در حال گفتن هر چیزی است. این سیستم حتی می‌تواند لحن احساسی و محیط پژواک‌شناختی گوینده اصلی را تقلید کند.
از جمله کاربردهای بالقوه آن، خواندن کامل کتاب‌های صوتی از تنها یک نمونه ضبط‌شده صدای نویسندگان، ویدیوهایی با صداگذاری به زبان طبیعی، و پرکردن صدا برای بازیگر فیلم در صورت خراب شدن ضبط اصلی است.
همانند سایر فناوری‌های «جعل عمیق» که شباهت بصری افراد را در ویدیوها تقلید می‌کند، امکان استفاده نادرست هم مطرح است.
نرم افزار وال-ای که برای تولید صدای ساختگی استفاده می‌شود، در حال حاضر برای استفاده عموم در دسترس نیست، و مایکروسافت به «خطرات احتمالی در استفاده نادرست از این ابزار، از جمله جعل شناسایی صدا یا جعل هویت یک گوینده خاص» اشاره کرده است.
مایکروسافت گفت که در ادامه توسعه وال-ای از «اصول هوش مصنوعی مسئولانه» خود پیروی می‌کند، و راه‌های ممکن را در تشخیص صداهای تولیدشده برای کاهش چنین خطراتی نیز در نظر می‌گیرد.
مایکروسافت، وال-ای را با استفاده از ضبط‌ صداها در حوزه عمومی، عمدتا از کتاب‌های صوتی «لیبری‌ووکس» آموزش داد، و سخنرانانی که صدای آن‌ها تقلید شد، با میل خود در آزمایش‌ها شرکت کردند.
پژوهشگران مایکروسافت در اظهارنامه‌‌ای اخلاقی گفتند: «زمانی که این مدل به سخنرانان نادیده تعمیم داده می‌شود، اجزای مربوط به آن باید با مدل‌های ویرایش گفتار، شامل پروتکلی به منظور اطمینان از توافق گوینده با اعمال ویرایش‌ها و سیستم تشخیص صدای ویرایش‌شده، همراه شوند.»