متا با جدیدترین ابزار هوش مصنوعی متن را به تصویر دلخواه کاربران تبدیل می کند

انتشار: 25 تیر 1401

هوش مصنوعی متا موسوم به Make-A-Scene، تخیل انسان و رایانه را با هنر الگوریتمی ترکیب می‌کند. این فناوری می‌تواند با ورودی متن و طرح‌های ساده، تصاویر باکیفیتی ایجاد کند.
تبدیل متن به تصویر درحال‌حاضر فرایند الگوریتمی بسیار جذابی است که با OpenAI Craiyon و هوش مصنوعی‌ Imagen AI گوگل باعث ایجاد هنرهای فوق‌العاده عجیب‌وغریبی شده که رویه‌ای ساخته‌شده از تخیل انسان و رایانه‌ در آن‌ها دیده می‌شود. متا اعلام کرده موتور تولید تصویر مبتنی‌بر هوش مصنوعی جدیدی توسعه داده که می‌تواند به ساخت جهان‌های فراگیر در متاورس و ایجاد هنرهای دیجیتالی کمک کند.
برای ایجاد یک تصویر براساس عبارت متنی «اسبی در بیمارستان وجود دارد» با استفاده از نسل کنونی هوش مصنوعی، کار زیادی باید انجام شود. در این روند، عبارت متنی ابتدا ازطریق یک مدل تبدیل، دریافت شده و یک شبکه‌ی عصبی که کلمات جمله را تجزیه و درک می‌کند، زمینه‌ای از رابطه‌های آن‌ها را با یکدیگر بسازد. به‌محض این‌ که این مدل متوجه شود که کاربر چه چیزی را توصیف کرده است، هوش مصنوعی یک تصویر جدید را با استفاده از مجموعه‌ای از شبکه‌های مولد، ترکیب خواهد کرد.
هوش مصنوعی پیشرفته‌ی امروزی به‌لطف تلاش‌هایی که در سال‌های اخیر برای آموزش مدل‌های یادگیری ماشینی روی مجموعه‌های تصویری با وضوح بالا و گسترش‌یافته با توضیحات متنی به‌خوبی انجام شده، می‌تواند عکس‌های واقعی را از متن‌های کاملاً غیرمرتبط نیز تولید کند. فرایند ایجاد تصاویر در انواع هوش مصنوعی، بسیار خاص است.
به‌عنوان مثال، Imagen گوگل از یک مدل Diffusion استفاده می‌کند که یاد می‌گیرد الگوی نقاط تصادفی را به‌تصاویر تبدیل کند. این تصاویر ابتدا با وضوح پایین شروع می‌شوند و سپس به‌تدریج وضوح آن‌ها افزایش می‌یابد. از سوی دیگر Pari AI گوگل ابتدا مجموعه‌ای از تصاویر را به دنباله‌ای از ورودی‌های کد شبکه به قطعات پازل تبدیل می‌کند و سپس یک دستور متنی به‌این ورودی‌های کد ترجمه می‌شود و تصویر جدیدی ایجاد خواهد کرد.
درحالی‌که این سیستم‌ها می‌توانند هرچیزی را که برای آن‌ها توضیح داده شده است ایجاد کنند، کاربر هیچ کنترلی روی جنبه‌های خاص تصویر خروجی ندارد. مارک زاکربرگ، مدیرعامل متا در پستی وبلاگی گفت:
برای درک پتانسیل هوض مصنوعی برای پیش‌برد بیان خلاقانه، مردم باید بتوانند روی محتوایی که یک سیستم تولید می‌کند، کنترل داشته باشند.
مفهوم تحقیقاتی-اکتشافی هوش مصنوعی متا، با نام Make-A-Scene شناخته می‌شود و این کار را با ترکیب طرح‌هایی که کاربران با تبدیل متن به عکس ایجاد کرده‌اند، انجام می‌دهد و تصویری با وضوح ۲۰۴۸ در ۲۰۴۸ پیکسل را تولید می‌کند. این ترکیب به کاربر اجازه می‌دهد تا نه‌تنها آنچه را در تصویر می‌خواهد، توصیف کند، بلکه ترکیب کلی تصویر را نیز ارائه دهد. زاکربرگ می‌گوید:
این نشان می‌دهد که افراد چگونه می‌توانند هم از متن و هم نقاشی‌های ساده برای انتقال دیدگاه خود و اعمال ویژگی‌های بیشتر با استفاده از عناصر، فرم‌ها، ترتیب‌ها، عمق، ترکیب‌بندی‌ها و ساختارها استفاده کنند.
ارزیاب‌های انسانی در آزمایش هوش مصنوعی جدید متا، اکثراً تصویر به‌دست‌آمده از متن و طرح را نسبت به تصویری که فقط از متن ایجاد شده است، به‌عنوان همسویی بهتر با طرح اصلی و هم‌سویی بهتر با توضیحات متن اصلی انتخاب کردند. متا برای توسعه‌ی بیشتر این فناوری، نسخه‌ی نمایشی Make-A-Scene را با هنرمندان برجسته‌ی هوش مصنوعی ازجمله سوفیا کرسپو، اسکات ایتون، الکساندر برن و رفیک آنادول به‌اشتراک گذاشته است. این هنرمندان از هوش مصنوعی استفاده می‌کنند و سپس بازخورد خود را از عملکرد آن ارائه خواهند داد.
درحال‌حاضر هنوز مشخص نیست که این هوش مصنوعی چه زمانی دردسترس عموم کاربران قرار خواهد گرفت.