محققان دانشگاه واترلو و موسسه کورانت دانشگاه نیویورک اخیرا ابزار هوش مصنوعی ایجاد کرده اند که می تواند به طور خودکار تصاویر هنری منحصر به فردی را بر اساس توضیحات متنی ایجاد کند. روش آنها که در مقاله ای از پیش منتشر شده در arXiv معرفی شده است، مبتنی بر یک شبکه متخاصم مولد حافظه پویا (DM-GAN) است، مدلی مبتنی بر دو شبکه عصبی مصنوعی که با یکدیگر برای تولید تصاویر متقاعدکننده فزاینده ای کار می کنند.
ایده اصلی پشت کار اخیر تیان و فرانچیتی، ایجاد مدلی بود که بتواند از توضیحات متنی ارائه شده توسط کاربران برای تولید تصاویر هنری مطابق با این توصیفات استفاده کند. این امر به افراد دارای معلولیت که مانع از نقاشی مؤثر آنها می شود و سایر افرادی که در طراحی مهارت چندانی ندارند، اجازه می دهد تا تصاویر هنری زیبایی را تولید کنند که چیزهای خاصی را به تصویر می کشد.
با این حال، اکثر مجموعه دادههای موجود برای آموزش مدلهای مولد، یا حاوی تصاویر یا متون برچسبدار هستند، نه تصاویر جفت شده با توضیحات متنی آنها. بنابراین، محققان مجبور شدند راه جایگزینی برای آموزش مدل خود ارائه دهند.
محققان در مقاله خود توضیح دادند: «به دلیل کمبود مجموعه دادهها با توضیحات متن و تصاویر هنری، آموزش مستقیم الگوریتمی که بتواند بر اساس ورودی متن هنر ایجاد کند، دشوار است. برای رسیدگی به این موضوع، وظایف خود را به سه مرحله تقسیم کردیم.»
اولاً، محققان از مدل DM-GAN خود برای ایجاد یک تصویر واقع گرایانه که بیانگر یک توصیف متنی است، استفاده کردند. متعاقباً، آنها از ResNet، یک شبکه عصبی مصنوعی با چندین لایه، برای طبقهبندی تصویر تولید شده توسط DM-GAN در یکی از دستههای ژانر مشخص شده توسط مجموعه داده WikiArt استفاده کردند.
مجموعه داده WikiArt که اغلب برای آموزش روشهای یادگیری عمیق استفاده میشود، شامل بیش از ۴۰۰۰۰ نقاشی هنری است که توسط ۱۹۵ هنرمند تولید شدهاند. پس از طبقهبندی تصویر تولید شده توسط DM-GAN به یکی از دستههای ژانر مشخص شده توسط ویکی آرت،
مدل میتواند با استفاده از یک شبکه سبکسازی هنری عصبی، سبک نقاشی سازگار با این دسته ژانر را انتخاب کرده و به تصویر تولید شده منتقل کند.