با تکامل فناوریها، محققان همچنان به یافتن راههای جدیدی برای استفاده از قابلیتهای هوش مصنوعی و یادگیری ماشینی میپردازند. در اوایل این هفته، دانشمندان گوگل از ایجاد Transframer، یک چارچوب جدید با قابلیت تولید ویدیوهای کوتاه بر اساس ورودی های تصویر منفرد خبر دادند. فناوری جدید میتواند روزی راهحلهای رندر سنتی را تقویت کند و به توسعهدهندگان این امکان را میدهد تا محیطهای مجازی را بر اساس قابلیتهای یادگیری ماشین ایجاد کنند.
نام چارچوب جدید اشاره ای به مدل دیگری مبتنی بر هوش مصنوعی به نام Transformer است. Transformer که در ابتدا در سال ۲۰۱۷ معرفی شد، یک معماری جدید شبکه عصبی با قابلیت تولید متن با مدل سازی و مقایسه کلمات دیگر در یک جمله است. این مدل از آن زمان در چارچوب های یادگیری عمیق استاندارد مانند TensorFlow و PyTorch گنجانده شده است.
همانطور که Transformer از زبان برای پیشبینی خروجیهای بالقوه استفاده میکند، Transframer از تصاویر زمینه با ویژگیهای مشابه همراه با حاشیهنویسی پرس و جو برای ایجاد ویدیوهای کوتاه استفاده میکند. فیلمهای حاصل در اطراف تصویر هدف حرکت میکنند و با وجود اینکه هیچ داده هندسی در ورودیهای تصویر اصلی ارائه نکردهاند، پرسپکتیوهای دقیق را تجسم میکنند.
در واقع Transframerیک چارچوب مولد همه منظوره است که می تواند بسیاری از کارهای تصویری و ویدئویی را در یک محیط احتمالی انجام دهد. کار جدید نشان میدهد که در پیشبینی ویدیو و ترکیب مشاهده عالی است و میتواند ویدیوهای دهه ۳۰ را از یک تصویر تولید کند.
این فناوری جدید که با استفاده از پلتفرم هوش مصنوعی DeepMind گوگل نشان داده شده است، با تجزیه و تحلیل یک تصویر زمینه عکس برای به دست آوردن قطعات کلیدی داده های تصویر و تولید تصاویر اضافی عمل می کند. در طی این تجزیه و تحلیل، سیستم قاب عکس
را شناسایی می کند که به نوبه خود به سیستم کمک می کند تا محیط اطراف عکس را پیش بینی کند.
سپس از تصاویر زمینه برای پیش بینی بیشتر نحوه ظاهر شدن یک تصویر از زوایای مختلف استفاده می شود. پیشبینی احتمال فریمهای تصویر اضافی را بر اساس دادهها، حاشیهنویسیها و هر اطلاعات دیگری که از فریمهای زمینه موجود است، مدل میکند.
این چارچوب با ارائه توانایی تولید ویدیوی دقیق و معقول بر اساس مجموعه بسیار محدودی از داده ها، گام بزرگی را در فناوری ویدیو نشان می دهد. وظایف Transframer همچنین نتایج بسیار امیدوارکنندهای را در سایر وظایف و معیارهای مرتبط با ویدئو مانند تقسیمبندی معنایی، طبقهبندی تصویر و پیشبینیهای جریان نوری نشان دادهاند.
پیامدهای آن برای صنایع مبتنی بر ویدئو، مانند توسعه بازی، می تواند به طور بالقوه بسیار زیاد باشد. محیطهای توسعه بازی کنونی بر تکنیکهای رندر اصلی مانند سایهزنی، نقشهبرداری بافت، عمق میدان و ردیابی پرتو تکیه دارند. فناوریهایی مانند Transframer این پتانسیل را دارند که با استفاده از هوش مصنوعی و یادگیری ماشینی برای ساخت محیطهایشان مسیر توسعهای کاملاً جدید را به توسعهدهندگان ارائه دهند و در عین حال زمان، منابع و تلاش لازم برای ایجاد آنها را کاهش دهند.
نام چارچوب جدید اشاره ای به مدل دیگری مبتنی بر هوش مصنوعی به نام Transformer است. Transformer که در ابتدا در سال ۲۰۱۷ معرفی شد، یک معماری جدید شبکه عصبی با قابلیت تولید متن با مدل سازی و مقایسه کلمات دیگر در یک جمله است. این مدل از آن زمان در چارچوب های یادگیری عمیق استاندارد مانند TensorFlow و PyTorch گنجانده شده است.
همانطور که Transformer از زبان برای پیشبینی خروجیهای بالقوه استفاده میکند، Transframer از تصاویر زمینه با ویژگیهای مشابه همراه با حاشیهنویسی پرس و جو برای ایجاد ویدیوهای کوتاه استفاده میکند. فیلمهای حاصل در اطراف تصویر هدف حرکت میکنند و با وجود اینکه هیچ داده هندسی در ورودیهای تصویر اصلی ارائه نکردهاند، پرسپکتیوهای دقیق را تجسم میکنند.
در واقع Transframerیک چارچوب مولد همه منظوره است که می تواند بسیاری از کارهای تصویری و ویدئویی را در یک محیط احتمالی انجام دهد. کار جدید نشان میدهد که در پیشبینی ویدیو و ترکیب مشاهده عالی است و میتواند ویدیوهای دهه ۳۰ را از یک تصویر تولید کند.
این فناوری جدید که با استفاده از پلتفرم هوش مصنوعی DeepMind گوگل نشان داده شده است، با تجزیه و تحلیل یک تصویر زمینه عکس برای به دست آوردن قطعات کلیدی داده های تصویر و تولید تصاویر اضافی عمل می کند. در طی این تجزیه و تحلیل، سیستم قاب عکس
را شناسایی می کند که به نوبه خود به سیستم کمک می کند تا محیط اطراف عکس را پیش بینی کند.
سپس از تصاویر زمینه برای پیش بینی بیشتر نحوه ظاهر شدن یک تصویر از زوایای مختلف استفاده می شود. پیشبینی احتمال فریمهای تصویر اضافی را بر اساس دادهها، حاشیهنویسیها و هر اطلاعات دیگری که از فریمهای زمینه موجود است، مدل میکند.
این چارچوب با ارائه توانایی تولید ویدیوی دقیق و معقول بر اساس مجموعه بسیار محدودی از داده ها، گام بزرگی را در فناوری ویدیو نشان می دهد. وظایف Transframer همچنین نتایج بسیار امیدوارکنندهای را در سایر وظایف و معیارهای مرتبط با ویدئو مانند تقسیمبندی معنایی، طبقهبندی تصویر و پیشبینیهای جریان نوری نشان دادهاند.
پیامدهای آن برای صنایع مبتنی بر ویدئو، مانند توسعه بازی، می تواند به طور بالقوه بسیار زیاد باشد. محیطهای توسعه بازی کنونی بر تکنیکهای رندر اصلی مانند سایهزنی، نقشهبرداری بافت، عمق میدان و ردیابی پرتو تکیه دارند. فناوریهایی مانند Transframer این پتانسیل را دارند که با استفاده از هوش مصنوعی و یادگیری ماشینی برای ساخت محیطهایشان مسیر توسعهای کاملاً جدید را به توسعهدهندگان ارائه دهند و در عین حال زمان، منابع و تلاش لازم برای ایجاد آنها را کاهش دهند.
کد خبر ۲۲۳۰۱۰۵۳۱.۲۸۸