هوش مصنوعی جدید مایکروسافت قادر به نوشتن توضیح برای تصاویر، جواب به سوالات درباره محتوای آنها و پاسخ به آزمون IQ است.
پژوهشگران هوش مصنوعی در مایکروسافت بهتازگی از مدل جدیدی رونمایی کردهاند که میتواند محتوای تصاویر را بررسی و درک کند و قابلیتهای دیگری مثل حل پازل، تشخیص متن و درک دستورات زبانی را هم به همراه دارد.
دیجیاتو نوشت که هوش مصنوعی جدید مایکروسافت که از چندین ماژول تشکیل شده است، Kosmos-1 نام دارد. سازندگان آن، معتقد هستند که این ابزار، یک گام کلیدی برای دستیابی به هوش جامع مصنوعی (AGI) محسوب میشود که قادر باشد وظایف عمومی را در سطح انسان به انجام برساند. نکته حائز اهمیت، این است که محصول آزمایشی جدید مایکروسافت میتواند از انواع ورودیهای مختلف مثل متن، صدا، تصویر و حتی ویدئو برای دریافت دستورات استفاده نماید و از این لحاظ کمی با نمونههای فعلی شناخته شده، متفاوت است.
مثالهای تصویری منتشر شده از هوش مصنوعی مذکور در مقاله پژوهشی مرتبط با آن، نشان میدهد که این ابزار امکان بررسی تصاویر و پاسخ به سوالات مرتبط با محتوای آنها را دارد. خواندن متن در عکسها و نوشتن توضیحات پیرامون آنها از دیگر مواردی است که میتواند به انجام برساند. اگرچه درحال حاضر، توجه رسانهای فراوانی روی مدلهای زبانی عظیم (LLM) هوش مصنوعی وجود دارد؛ اما کارشناسان عقیده دارند که ابزارهای مبتنی بر چند ماژول میتوانند پتانسیل بیشتری برای تبدیل شدن به هوش مصنوعی جامع باشند. دستیابی به چنین ابزاری، هدف نهایی بسیاری از شرکتهای فعال در این زمینه، از جمله OpenAI سازنده ChatGPT، است که همکاری نزدیکی هم با مایکروسافت دارد.
البته به نظر میرسد که هوش مصنوعی جدید مایکروسافت، به شکل مستقل از OpenAI و تنها توسط ردموندیها، توسعه یافته باشد. سازندگان آن، محصول خود را یک مدل چند ماژوله زبانی عظیم (MLLM) توصیف میکنند؛ زیرا با وجود پشتیبانی از ورودیهای مختلف دستوری، باز هم پردازشهای نهایی آن براساس مدل متن محور LLM و مشابه با ابزارهای کنونی مانند ChatGPT صورت میگیرد. به همین دلیل، کاملاً طبیعی است که برای درک تصاویر توسط این هوش مصنوعی، ابتدا محتوای آنها باید به متن تبدیل شوند.
مایکروسافت از دادههای موجود روی اینترنت برای تعلیم هوش مصنوعی جدید خود استفاده کرده است که از جمله منابع آن میتوان به گزیده The Pile (مجموعه ۸۰۰ گیگابایتی از متون انگلیسی) و Common Crawl اشاره کرد. پس از تمرینهای اولیه، عملکرد ابزار مورد بحث در آزمایشهای مختلف مثل تستهای درک زبانی، تشخیص کاراکترهای تصویری، نوشتن توضیحات برای عکسها، پاسخ به سوالات از تصاویر یا صفحات اینترنتی و… مورد ارزیابی قرار گرفت. طبق ادعای مایکروسافت، این محصول در بسیاری از تستها توانسته است تا مدلهای فعلی مورد استفاده را پشت سر بگذارد.
محصول تازه مایکروسافت در مراحل اولیه قرار دارد و پیشبینی میشود که در آینده، با بهینهسازیهای بیشتر، میتواند عملکرد بهتری را از خود نشان دهد. چنین مدلهای هوش مصنوعی که میتوانند از ورودیهای گوناگونی پشتیبانی کنند، پتانسیل بالایی برای استفاده به عنوان دستیارهای مصنوعی توسط کاربران دارند. احتمال میرود که محققان مایکروسافت با گسترش ابداع خود، بتوانند ویژگیهای دیگر از جمله تکلم را هم به آن اضافه نمایند. مایکروسافت اعلام کرده است که قصد دارد Kosmos-1 را در اختیار توسعهدهندگان قرار دهد؛ ولی هنوز تاریخ دقیقی برای انتشار کدها، اعلام نکرده است.
پژوهشگران هوش مصنوعی در مایکروسافت بهتازگی از مدل جدیدی رونمایی کردهاند که میتواند محتوای تصاویر را بررسی و درک کند و قابلیتهای دیگری مثل حل پازل، تشخیص متن و درک دستورات زبانی را هم به همراه دارد.
دیجیاتو نوشت که هوش مصنوعی جدید مایکروسافت که از چندین ماژول تشکیل شده است، Kosmos-1 نام دارد. سازندگان آن، معتقد هستند که این ابزار، یک گام کلیدی برای دستیابی به هوش جامع مصنوعی (AGI) محسوب میشود که قادر باشد وظایف عمومی را در سطح انسان به انجام برساند. نکته حائز اهمیت، این است که محصول آزمایشی جدید مایکروسافت میتواند از انواع ورودیهای مختلف مثل متن، صدا، تصویر و حتی ویدئو برای دریافت دستورات استفاده نماید و از این لحاظ کمی با نمونههای فعلی شناخته شده، متفاوت است.
مثالهای تصویری منتشر شده از هوش مصنوعی مذکور در مقاله پژوهشی مرتبط با آن، نشان میدهد که این ابزار امکان بررسی تصاویر و پاسخ به سوالات مرتبط با محتوای آنها را دارد. خواندن متن در عکسها و نوشتن توضیحات پیرامون آنها از دیگر مواردی است که میتواند به انجام برساند. اگرچه درحال حاضر، توجه رسانهای فراوانی روی مدلهای زبانی عظیم (LLM) هوش مصنوعی وجود دارد؛ اما کارشناسان عقیده دارند که ابزارهای مبتنی بر چند ماژول میتوانند پتانسیل بیشتری برای تبدیل شدن به هوش مصنوعی جامع باشند. دستیابی به چنین ابزاری، هدف نهایی بسیاری از شرکتهای فعال در این زمینه، از جمله OpenAI سازنده ChatGPT، است که همکاری نزدیکی هم با مایکروسافت دارد.
البته به نظر میرسد که هوش مصنوعی جدید مایکروسافت، به شکل مستقل از OpenAI و تنها توسط ردموندیها، توسعه یافته باشد. سازندگان آن، محصول خود را یک مدل چند ماژوله زبانی عظیم (MLLM) توصیف میکنند؛ زیرا با وجود پشتیبانی از ورودیهای مختلف دستوری، باز هم پردازشهای نهایی آن براساس مدل متن محور LLM و مشابه با ابزارهای کنونی مانند ChatGPT صورت میگیرد. به همین دلیل، کاملاً طبیعی است که برای درک تصاویر توسط این هوش مصنوعی، ابتدا محتوای آنها باید به متن تبدیل شوند.
مایکروسافت از دادههای موجود روی اینترنت برای تعلیم هوش مصنوعی جدید خود استفاده کرده است که از جمله منابع آن میتوان به گزیده The Pile (مجموعه ۸۰۰ گیگابایتی از متون انگلیسی) و Common Crawl اشاره کرد. پس از تمرینهای اولیه، عملکرد ابزار مورد بحث در آزمایشهای مختلف مثل تستهای درک زبانی، تشخیص کاراکترهای تصویری، نوشتن توضیحات برای عکسها، پاسخ به سوالات از تصاویر یا صفحات اینترنتی و… مورد ارزیابی قرار گرفت. طبق ادعای مایکروسافت، این محصول در بسیاری از تستها توانسته است تا مدلهای فعلی مورد استفاده را پشت سر بگذارد.
محصول تازه مایکروسافت در مراحل اولیه قرار دارد و پیشبینی میشود که در آینده، با بهینهسازیهای بیشتر، میتواند عملکرد بهتری را از خود نشان دهد. چنین مدلهای هوش مصنوعی که میتوانند از ورودیهای گوناگونی پشتیبانی کنند، پتانسیل بالایی برای استفاده به عنوان دستیارهای مصنوعی توسط کاربران دارند. احتمال میرود که محققان مایکروسافت با گسترش ابداع خود، بتوانند ویژگیهای دیگر از جمله تکلم را هم به آن اضافه نمایند. مایکروسافت اعلام کرده است که قصد دارد Kosmos-1 را در اختیار توسعهدهندگان قرار دهد؛ ولی هنوز تاریخ دقیقی برای انتشار کدها، اعلام نکرده است.
کد خبر ۲۱۳۰۱۱۲۱۴.۵۶۰