مایکروسافت یک مدل هوش مصنوعی جدید عرضه کرده است که میتواند با استفاده از یک تصویر ثابت چهرههای متحرک واقعی تولید کند.
مایکروسافت یک مدل هوش مصنوعی معرفی کرده است که میتواند با استفاده از یک تصویر ثابت یا آهنگ صوتی، ویدیوهای واقعی تولید کند. حالا سوالی که مطرح میشود این است که با رشد شتابان فناوری هوش مصنوعی چگونه میتوانیم به آنچه آنلاین میبینیم و میشنویم اعتماد کنیم؟
سیستمهای هوش مصنوعی در چند سال گذشته در معیارهای کلیدی توسعه یافته اند و در حال حاضر بسیاری از مردم نگران این هستند که الگوریتمهای هوش مصنوعی جایگزین آنها شوند.
اخیراً شاهد ظهور گجتهای هوشمند نسبتاً محدودی بودهایم که به دستیارهای قدرتمند روزمره و ابزارهای بهرهوری حیاتی تبدیل شدهاند. همچنین مدلهایی وجود دارند که میتوانند جلوههای صوتی واقعی را برای کلیپهای ویدیویی بیصدا ایجاد کنند، و حتی فیلمهای خیرهکننده از پیامهای متنی ایجاد کنند. با این حال «واسا-۱» (VASA-۱) مایکروسافت یک جهش بزرگ دیگر در این حوزه محسوب میشود.
پس از آموزش مدل بر روی فیلم حدود ۶ هزار چهره در حال صحبت در زندگی واقعی، این فناوری قادر به تولید ویدیویهای واقعی است که در آن سوژه جدید متحرک نه تنها قادر به همگام سازی دقیق لب با یک آهنگ صوتی ارائه شده است، بلکه میتواند طیف گستردهای از احساسات، ظرافتهای چهره و حرکات طبیعی سر را نیز به تصویر بکشد و چهرههای ساختهشده را واقعیتر نشان دهد. علاوهبراین، روی ویدیوی تولیدشده کنترل دارد؛ به این معنا که کاربران میتوانند جهت نگاهکردن شخصیت، فاصله درکشده و حتی حالت احساسی آنها را مشخص کنند.
طبق گزارشآنا پرس ، «واسا-۱» قادر به تولید ویدیوهای همگامسازی شده با رزولوشن ۵۱۲x۵۱۲ پیکسل با سرعت ۴۵ فریمدرثانیه هستند که در حالت آنلاین این میزان به ۴۰ فریمدرثانیه میرسد.
در مقدمه مقالهای که جزئیات این دستاورد را توضیح میدهد، آمده است: ظهور چهرههای سخنگو تولید شده توسط هوش مصنوعی دریچهای رو به آینده ارائه میدهد که در آن فناوری غنای تعاملات انسان-انسان و انسان-هوش مصنوعی را تقویت میکند. چنین فناوری نوید غنیسازی ارتباطات دیجیتال، افزایش دسترسی برای افراد دارای اختلالات ارتباطی، تغییر روشهای آموزشی با آموزش تعاملی هوش مصنوعی، و ارائه پشتیبانی درمانی و تعامل اجتماعی در مراقبتهای بهداشتی را میدهد.
همه این دستاوردها بسیار ستودنی است، اما محققان همچنین ظرفیت این فناوری برای سوء استفاده را نیز تایید میکنند. اگرچه در هنگام هضم حجم روزانه اخبار آنلاین، حذف واقعیت از جعل واقعی غیرممکن به نظر میرسد.
با این حال، محتوای تولید شده توسط مدل «واسا-۱» حاوی مصنوعات قابل شناسایی است و محققان قصد ندارند این پلتفرم را تا زمانی که مطمئن نباشند این فناوری به طور مسئولانه و مطابق با مقررات مناسب استفاده خواهد شد، در دسترس عموم قرار دهند.
مایکروسافت یک مدل هوش مصنوعی معرفی کرده است که میتواند با استفاده از یک تصویر ثابت یا آهنگ صوتی، ویدیوهای واقعی تولید کند. حالا سوالی که مطرح میشود این است که با رشد شتابان فناوری هوش مصنوعی چگونه میتوانیم به آنچه آنلاین میبینیم و میشنویم اعتماد کنیم؟
سیستمهای هوش مصنوعی در چند سال گذشته در معیارهای کلیدی توسعه یافته اند و در حال حاضر بسیاری از مردم نگران این هستند که الگوریتمهای هوش مصنوعی جایگزین آنها شوند.
اخیراً شاهد ظهور گجتهای هوشمند نسبتاً محدودی بودهایم که به دستیارهای قدرتمند روزمره و ابزارهای بهرهوری حیاتی تبدیل شدهاند. همچنین مدلهایی وجود دارند که میتوانند جلوههای صوتی واقعی را برای کلیپهای ویدیویی بیصدا ایجاد کنند، و حتی فیلمهای خیرهکننده از پیامهای متنی ایجاد کنند. با این حال «واسا-۱» (VASA-۱) مایکروسافت یک جهش بزرگ دیگر در این حوزه محسوب میشود.
پس از آموزش مدل بر روی فیلم حدود ۶ هزار چهره در حال صحبت در زندگی واقعی، این فناوری قادر به تولید ویدیویهای واقعی است که در آن سوژه جدید متحرک نه تنها قادر به همگام سازی دقیق لب با یک آهنگ صوتی ارائه شده است، بلکه میتواند طیف گستردهای از احساسات، ظرافتهای چهره و حرکات طبیعی سر را نیز به تصویر بکشد و چهرههای ساختهشده را واقعیتر نشان دهد. علاوهبراین، روی ویدیوی تولیدشده کنترل دارد؛ به این معنا که کاربران میتوانند جهت نگاهکردن شخصیت، فاصله درکشده و حتی حالت احساسی آنها را مشخص کنند.
طبق گزارشآنا پرس ، «واسا-۱» قادر به تولید ویدیوهای همگامسازی شده با رزولوشن ۵۱۲x۵۱۲ پیکسل با سرعت ۴۵ فریمدرثانیه هستند که در حالت آنلاین این میزان به ۴۰ فریمدرثانیه میرسد.
در مقدمه مقالهای که جزئیات این دستاورد را توضیح میدهد، آمده است: ظهور چهرههای سخنگو تولید شده توسط هوش مصنوعی دریچهای رو به آینده ارائه میدهد که در آن فناوری غنای تعاملات انسان-انسان و انسان-هوش مصنوعی را تقویت میکند. چنین فناوری نوید غنیسازی ارتباطات دیجیتال، افزایش دسترسی برای افراد دارای اختلالات ارتباطی، تغییر روشهای آموزشی با آموزش تعاملی هوش مصنوعی، و ارائه پشتیبانی درمانی و تعامل اجتماعی در مراقبتهای بهداشتی را میدهد.
همه این دستاوردها بسیار ستودنی است، اما محققان همچنین ظرفیت این فناوری برای سوء استفاده را نیز تایید میکنند. اگرچه در هنگام هضم حجم روزانه اخبار آنلاین، حذف واقعیت از جعل واقعی غیرممکن به نظر میرسد.
با این حال، محتوای تولید شده توسط مدل «واسا-۱» حاوی مصنوعات قابل شناسایی است و محققان قصد ندارند این پلتفرم را تا زمانی که مطمئن نباشند این فناوری به طور مسئولانه و مطابق با مقررات مناسب استفاده خواهد شد، در دسترس عموم قرار دهند.
کد خبر ۲۱۳۰۳۰۲۰۲.۵۷۱