هوش مصنوعی جدید مایکروسافت امکان درک محتوای تصاویر و حل پازل را دارد

انتشار: 14 اسفند 1401
کد خبر: 213011214.560

هوش مصنوعی جدید مایکروسافت قادر به نوشتن توضیح برای تصاویر، جواب به سوالات درباره محتوای آن‌ها و پاسخ به آزمون IQ است.
پژوهشگران هوش مصنوعی در مایکروسافت به‌تازگی از مدل جدیدی رونمایی کرده‌اند که می‌تواند محتوای تصاویر را بررسی و درک کند و قابلیت‌های دیگری مثل حل پازل، تشخیص متن و درک دستورات زبانی را هم به همراه دارد.
دیجیاتو نوشت که هوش مصنوعی جدید مایکروسافت که از چندین ماژول تشکیل شده است، Kosmos-1 نام دارد. سازندگان آن، معتقد هستند که این ابزار، یک گام کلیدی برای دستیابی به هوش جامع مصنوعی (AGI) محسوب می‌شود که قادر باشد وظایف عمومی را در سطح انسان به انجام برساند. نکته حائز اهمیت، این است که محصول آزمایشی جدید مایکروسافت می‌تواند از انواع ورودی‌های مختلف مثل متن، صدا، تصویر و حتی ویدئو برای دریافت دستورات استفاده نماید و از این لحاظ کمی با نمونه‌های فعلی شناخته شده، متفاوت است.
مثال‌های تصویری منتشر شده از هوش مصنوعی مذکور در مقاله پژوهشی مرتبط با آن، نشان می‌دهد که این ابزار امکان بررسی تصاویر و پاسخ به سوالات مرتبط با محتوای آنها را دارد. خواندن متن در عکس‌ها و نوشتن توضیحات پیرامون آنها از دیگر مواردی است که می‌تواند به انجام برساند. اگرچه درحال حاضر، توجه رسانه‌ای فراوانی روی مدل‌های زبانی عظیم (LLM) هوش مصنوعی وجود دارد؛ اما کارشناسان عقیده دارند که ابزارهای مبتنی بر چند ماژول می‌توانند پتانسیل بیشتری برای تبدیل شدن به هوش مصنوعی جامع باشند. دستیابی به چنین ابزاری، هدف نهایی بسیاری از شرکت‌های فعال در این زمینه، از جمله OpenAI سازنده ChatGPT، است که همکاری نزدیکی هم با مایکروسافت دارد.
البته به نظر می‌رسد که هوش مصنوعی جدید مایکروسافت، به شکل مستقل از OpenAI و تنها توسط ردموندی‌ها، توسعه یافته باشد. سازندگان آن، محصول خود را یک مدل چند ماژوله زبانی عظیم (MLLM) توصیف می‌کنند؛ زیرا با وجود پشتیبانی از ورودی‌های مختلف دستوری، باز هم پردازش‌های نهایی آن براساس مدل متن محور LLM و مشابه با ابزارهای کنونی مانند ChatGPT صورت می‌گیرد. به همین دلیل، کاملاً طبیعی است که برای درک تصاویر توسط این هوش مصنوعی، ابتدا محتوای آن‌ها باید به متن تبدیل شوند.
مایکروسافت از داده‌های موجود روی اینترنت برای تعلیم هوش مصنوعی جدید خود استفاده کرده است که از جمله منابع آن می‌توان به گزیده The Pile (مجموعه ۸۰۰ گیگابایتی از متون انگلیسی) و Common Crawl اشاره کرد. پس از تمرین‌های اولیه، عملکرد ابزار مورد بحث در آزمایش‌های مختلف مثل تست‌های درک زبانی، تشخیص کاراکترهای تصویری، نوشتن توضیحات برای عکس‌ها، پاسخ به سوالات از تصاویر یا صفحات اینترنتی و… مورد ارزیابی قرار گرفت. طبق ادعای مایکروسافت، این محصول در بسیاری از تست‌ها توانسته است تا مدل‌های فعلی مورد استفاده را پشت سر بگذارد.
محصول تازه مایکروسافت در مراحل اولیه قرار دارد و پیش‌بینی می‌شود که در آینده، با بهینه‌سازی‌های بیشتر، می‌تواند عملکرد بهتری را از خود نشان دهد. چنین مدل‌های هوش مصنوعی که می‌توانند از ورودی‌های گوناگونی پشتیبانی کنند، پتانسیل بالایی برای استفاده به عنوان دستیارهای مصنوعی توسط کاربران دارند. احتمال می‌رود که محققان مایکروسافت با گسترش ابداع خود، بتوانند ویژگی‌های دیگر از جمله تکلم را هم به آن اضافه نمایند. مایکروسافت اعلام کرده است که قصد دارد Kosmos-1 را در اختیار توسعه‌دهندگان قرار دهد؛ ولی هنوز تاریخ دقیقی برای انتشار کدها، اعلام نکرده است.

کد خبر ۲۱۳۰۱۱۲۱۴.۵۶۰