هوش مصنوعی جدید گوگل که از متن و تصویر ویدئوهای واقعی می‌سازد

انتشار: 8 بهمن 1402

تیمی از محققان گوگل ریسرچ، ابزار هوش مصنوعی جدیدی با نام Lumiere را توسعه داده‌اند که از آن به‌عنوان نسل بعدی ابزار‌های تولید ویدیو براساس متن یاد شده است.
گوگل مدعی شده که Lumiere می‌تواند ویدیو‌های کاملی با حرکات منسجم، روان و واقعی ایجاد کند.
بسیاری از مدل‌های هوش مصنوعی تولید ویدیوی فعلی در نمایش حرکات مشکل دارند و حتی اگر بتوانند این کار را به خوبی انجام دهند، سایر عناصر آن‌ها ممکن است دچار اختلال شوند. گوگل برای برطرف‌کردن این مشکلات، در Lumiere که نام آن احتمالاً از روی «برادران لومیر»، مخترعان سینما گرفته شده، از رویکرد متفاوتی برای تولید ویدیو استفاده کرده است. در واقع، Lumiere به‌جای کنار هم قراردادن فریم‌های مجزا، کل ویدیو را در یک فرایند ایجاد می‌کند و برای انجام این کار، می‌تواند محل قرارگیری اشیا و حرکت آن‌ها را به‌طور همزمان مدیریت کند.
هوش مصنوعی Lumiere هنوز یک پروژه تحقیقاتی است، بنابراین نمی‌توانید از آن استفاده کنید. با این حال، گوگل یک ویدیو کوتاه از قابلیت‌های آن به اشتراک گذاشته است .
Lumiere می‌تواند به‌عنوان یک ابزار «متن به ویدیو» و «تصویر به ویدیو» استفاده شود. همچنین می‌توان سبک مدنظر خود را نیز به آن ارائه کرد تا ویدیو نهایی را براساس آن تولید کند. علاوه‌براین، می‌توان با استفاده از دستورات متنی، ویدیوی خود را از طریق آن ویرایش کرد.
گوگل مدل هوش مصنوعی خود را براساس معماری فضا-زمان ساخته است، به این معنا که Lumiere می‌تواند تمام جنبه‌های حرکت و مکان را در نظر بگیرد. در واقع، این مدل در فرایند تولید ویدیوی خود، می‌تواند درک کند که سوژه عکس در چه مکانی قرار گرفته است و همچنین برای ساخت ویدیو مواردی ازجمله زمان و نحوه حرکت اشیا را نیز بررسی می‌کند.
محققان در مقاله خود نوشته‌اند:
«مدل ما یاد می‌گیرد که مستقیماً یک ویدیو با نرخ تمام‌فریم و وضوح پایین را با پردازش آن در مقیاس‌های فضا-زمان چندگانه تولید کند.»
Lumiere هنوز برای عموم منتشر نشده است، اما اگر علاقه‌مند هستید تا بیشتر با هوش مصنوعی گوگل آشنا شوید، می‌توانید به صفحه Github آن مراجعه کنید که چند ویدیو آزمایشی را به نمایش می‌گذارد.

کد خبر ۲۱۳۰۲۱۱۰۸.۵۶۰