مرکز تحقیقاتی پیشرفته ابوظبی از بزرگترین مدل پردازش زبان طبیعی جهان برای زبان عربی رونمایی کرده است.
پردازش زبان طبیعی یا NPL بخش مهمی از بخش هوش مصنوعی پررونق است که به رایانه ها کمک می کند تا کلمات گفتاری و نوشتاری را رمزگشایی کنند تا توسعه همه چیز از ابزارهای ترجمه زبان گرفته تا دستیارهای هوشمند به سبک سیری و الکسا را تقویت کنند.
مدل نور که در مؤسسه نوآوری فناوری توسعه یافته است، ممکن است به دنیای عرب یک مزیت جدید در فشار برای دیجیتالی شدن بدهد زیرا ابزارهایی مانند چت بات ها، هوش بازار و ترجمه ماشینی به شدت به بازارهای انگلیسی و چینی زبان گرایش دارند.
دکتر ابتثام المازروعی، مدیر TII که پروژه را رهبری میکند، اولویت یافتن راههایی برای استفاده از نور توسط شرکتها و دانشگاهیان برای ساخت ابزارهای جدید است، مانند ارائه تجزیه و تحلیل احساسات در سراسر رسانههای اجتماعی، یا توسعه دستیاران مجازی جدید عربی.
اما او گفت که نسخه کوچکتر نور نیز به عنوان یک مدل منبع باز در دسترس عموم قرار خواهد گرفت.
اندازه نور قابل توجه است. در NLP، اندازه یک مدل معین بر اساس تعداد مقادیری است که مدل بر روی آن آموزش دیده است. این مقادیر به عنوان پارامتر شناخته می شوند و بلوک های سازنده یادگیری ماشین هستند. هر چه تعداد پارامترها بیشتر باشد، یک مدل NLP پیچیده تر و توانمندتر است.
پیش از این، بزرگترین مدل عربی موجود، AraGPT بود، مدلی که بر روی ۱.۵ میلیارد پارامتر آموزش دیده بود. نور بر روی ۱۰ میلیارد پارامتر، از جمله مجموعه دادهای که دادههای وب را با کتابها، شعر، مقالههای خبری و اطلاعات فنی ترکیب میکند، آموزش دید تا برنامههای کاربردی قابل ساخت با آن را به طور قابل توجهی گسترش دهد.
بر اساس TII، این بزرگترین مجموعه داده عربی متقابل با کیفیت بالا است که تاکنون ساخته شده است.
نور اولین گام در تلاش های مرکز تحقیقاتی برای کمک به استراتژی گسترده تر امارات متحده عربی برای هوش مصنوعی با تسریع پذیرش و ادغام هوش مصنوعی در اقتصاد گسترده تر است.