هوش مصنوعی جدید گوگل می تواند ویدیوهای کوتاهی را تنها بر اساس یک تصویر ایجاد کند

هوش مصنوعی جدید گوگل می تواند ویدیوهای کوتاهی را تنها بر اساس یک تصویر ایجاد کند
فهرست مطالب
با تکامل فناوری‌ها، محققان همچنان به یافتن راه‌های جدیدی برای استفاده از قابلیت‌های هوش مصنوعی و یادگیری ماشینی می‌پردازند. در اوایل این هفته، دانشمندان گوگل از ایجاد Transframer، یک چارچوب جدید با قابلیت تولید ویدیوهای کوتاه بر اساس ورودی های تصویر منفرد خبر دادند. فناوری جدید می‌تواند روزی راه‌حل‌های رندر سنتی را تقویت کند و به توسعه‌دهندگان این امکان را می‌دهد تا محیط‌های مجازی را بر اساس قابلیت‌های یادگیری ماشین ایجاد کنند.
نام چارچوب جدید اشاره ای به مدل دیگری مبتنی بر هوش مصنوعی به نام Transformer است. Transformer که در ابتدا در سال ۲۰۱۷ معرفی شد، یک معماری جدید شبکه عصبی با قابلیت تولید متن با مدل سازی و مقایسه کلمات دیگر در یک جمله است. این مدل از آن زمان در چارچوب های یادگیری عمیق استاندارد مانند TensorFlow و PyTorch گنجانده شده است.
همانطور که Transformer از زبان برای پیش‌بینی خروجی‌های بالقوه استفاده می‌کند، Transframer از تصاویر زمینه با ویژگی‌های مشابه همراه با حاشیه‌نویسی پرس و جو برای ایجاد ویدیوهای کوتاه استفاده می‌کند. فیلم‌های حاصل در اطراف تصویر هدف حرکت می‌کنند و با وجود اینکه هیچ داده هندسی در ورودی‌های تصویر اصلی ارائه نکرده‌اند، پرسپکتیوهای دقیق را تجسم می‌کنند.
در واقع Transframerیک چارچوب مولد همه منظوره است که می تواند بسیاری از کارهای تصویری و ویدئویی را در یک محیط احتمالی انجام دهد. کار جدید نشان می‌دهد که در پیش‌بینی ویدیو و ترکیب مشاهده عالی است و می‌تواند ویدیوهای دهه ۳۰ را از یک تصویر تولید کند.
این فناوری جدید که با استفاده از پلتفرم هوش مصنوعی DeepMind گوگل نشان داده شده است، با تجزیه و تحلیل یک تصویر زمینه عکس برای به دست آوردن قطعات کلیدی داده های تصویر و تولید تصاویر اضافی عمل می کند. در طی این تجزیه و تحلیل، سیستم قاب عکس
را شناسایی می کند که به نوبه خود به سیستم کمک می کند تا محیط اطراف عکس را پیش بینی کند.
سپس از تصاویر زمینه برای پیش بینی بیشتر نحوه ظاهر شدن یک تصویر از زوایای مختلف استفاده می شود. پیش‌بینی احتمال فریم‌های تصویر اضافی را بر اساس داده‌ها، حاشیه‌نویسی‌ها و هر اطلاعات دیگری که از فریم‌های زمینه موجود است، مدل می‌کند.
این چارچوب با ارائه توانایی تولید ویدیوی دقیق و معقول بر اساس مجموعه بسیار محدودی از داده ها، گام بزرگی را در فناوری ویدیو نشان می دهد. وظایف Transframer همچنین نتایج بسیار امیدوارکننده‌ای را در سایر وظایف و معیارهای مرتبط با ویدئو مانند تقسیم‌بندی معنایی، طبقه‌بندی تصویر و پیش‌بینی‌های جریان نوری نشان داده‌اند.
پیامدهای آن برای صنایع مبتنی بر ویدئو، مانند توسعه بازی، می تواند به طور بالقوه بسیار زیاد باشد. محیط‌های توسعه بازی کنونی بر تکنیک‌های رندر اصلی مانند سایه‌زنی، نقشه‌برداری بافت، عمق میدان و ردیابی پرتو تکیه دارند. فناوری‌هایی مانند Transframer این پتانسیل را دارند که با استفاده از هوش مصنوعی و یادگیری ماشینی برای ساخت محیط‌هایشان مسیر توسعه‌ای کاملاً جدید را به توسعه‌دهندگان ارائه دهند و در عین حال زمان، منابع و تلاش لازم برای ایجاد آن‌ها را کاهش دهند.
کد خبر ۲۲۳۰۱۰۵۳۱.۲۸۸

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اشتراک گذاری خبر:
برچسب‌ها: