ترجمه صوتی فارسی با هوش مصنوعی متا

انتشار: 5 شهریور 1402
کد خبر: 213020605-600

متا از یک مدل هوش مصنوعی‌ جدید «گفتار به متن» با نام SeamlessM4T رونمایی کرده که می‌تواند گفتارهای ۱۰۰ زبان جهان از جمله زبان فارسی را ترجمه کند.
آزمایش‌های صورت گرفته می‌دهد دقت تشخیص این مدل از زبان فارسی بسیار دقیق و کم‌اشتباه است.
شرکت متا در پست وبلاگ خود نوشته است SeamlessM۴T که مخفف عبارت Massively Multilingual and Multimodal Machine Translation و به معنی «ترجمه ماشینی انبوه چندزبانه و چندوجهی» است، می‌تواند برای عملکردهای گفتار به گفتار و متن به گفتار، ۱۰۰ زبان ورودی را تشخیص دهد و آنها را به ۳۵ زبان خروجی تبدیل کند.
تیم تحقیقاتی متا در این پست تاکید می‌کند که SeamlessM۴T «به‌طور قابل‌توجهی عملکردهای مربوط به زبان‌های دارای منابع کم و متوسط تحت پشتیبانی را بهبود می‌بخشد» درحالی‌که «برای زبان‌های با منابع بالا مانند انگلیسی، اسپانیایی و آلمانی عملکرد فوق‌العاده‌ای از خود ارائه می کند.»
فعلا کاربران می توانند به‌طور رایگان از نسخه دمو این هوش مصنوعی استفاده کنند. مدل متا ابتدا از شما می‌خواهد صدای خود را ضبط کنید تا سپس بتوانید آن را در لحظه به حداکثر ۳ زبان، ازجمله فارسی ترجمه کنید.
طی چند بار آزمایش مشخص شد که ترجمه گفتارهای فارسی به انگلیسی در SeamlessM4T می تواند قابل قبول باشد، اما در عین حال در ترجمه عبارت های انگلیسی به فارسی دقت کمتری دارد.
با این حال، متا توضیح می‌دهد که SeamlessM4T پیشرفت قابل‌توجهی محسوب می ‌شود، زیرا این مدل هوش مصنوعی جدید می‌تواند کل کار ترجمه را در یک لحظه انجام دهد. این در حالی است که عموما مدل‌های ترجمه بزرگ دیگر این کار را با بخش بندی در سیستم‌های مختلفی انجام می‌دهند.
یکی از ویژگی‌های جالب SeamlessM4T، توانایی آن در تشخیص زبان‌های مختلف است. درواقع، مدل متا هنگامی که کاربر در جمله خود از چند زبان مختلف استفاده می‌کند، می‌تواند آنها را تشخیص دهد.
همچنین SeamlessM4T در آزمایش‌های خود به‌ترتیب ۳۷ و ۴۸ درصد نسبت به نویزهای پس‌زمینه و تغییرات بلندگو بهتر از نسل قبلی خود عمل کرده است. همچنین مانند بسیاری از تلاش‌های قبلی این شرکت درزمینه ترجمه مانند Llama 2، این مدل نیز کاملاً منبع‌باز است.
پیش از این، یک مدل هوش مصنوعی از سوی گوگل ارائه شده بود که گفتار به گفتار بود. ویژگی این مدل این بود که ترجمه را با صدای خود شخص ارائه می کرد.