مدل جدید هوش مصنوعی «متا» با تماشای ویدئو آموزش می‌بیند

انتشار: 1 اسفند 1402

محققان هوش مصنوعی «متا» مدل جدیدی را منتشر کرده‌اند که به روشی مشابه با مدل‌های زبان بزرگ (LLM) آموزش داده شده است، اما به جای یادگیری از کلمات نوشته‌شده، از ویدئو یاد می‌گیرد.
مدل‌های زبانی بزرگ یا LLM‌ ها معمولاً با استفاده از هزاران جمله یا عبارت آموزش می‌بینند که در آنها برخی از کلمات حذف شده‌اند و مدل را وادار می‌کند بهترین کلمات را برای پر کردن جا‌های خالی پیدا کند. با انجام این کار، مدل زبانی یک شناخت سطحی از جهان پیدا می‌کند.
«یان لکون» مدیر گروه تحقیقات بنیادی هوش مصنوعی «متا» پیشنهاد کرده که مدل‌های هوش مصنوعی با استفاده از تکنیک مشابه در فیلم‌های ویدئویی آموزش ببینند.
«لکون» در این باره اعلام کرده که هدف ما ساختن هوش ماشینی پیشرفته‌ای است که می‌تواند مانند انسان‌ها بیشتر بیاموزد.
تجسم نظریه «لکون» یک مدل تحقیقاتی به نام معماری مشترک پیش بینی کننده تعبیه جایگذاری ویدئو (V-JEPA) است که با پردازش ویدئوی بدون برچسب و پی بردن به اتفاقاتی که احتمالاً در قسمت خاصی از صفحه نمایش در چند ثانیه سیاه شدن آن رخ می‌دهد، آموزش می‌بیند.
(V-JEPA) یک مدل مولد نیست بلکه یک مدل مفهومی درونی از جهان ایجاد می‌کند.
محققان «متا» می‌گویند که (V-JEPA) در تشخیص و درک تعاملات بسیار دقیق بین اشیاء عالی است و می‌تواند دستاورد‌های بسیاری برای «متا» و اکوسیستم گسترده‌تر هوش مصنوعی داشته باشد.

کد خبر ۲۱۲۰۲۱۲۰۱.۳۸۸