یک سیستم جامع و پیشرفته برای ارزیابی و رتبهبندی مدلهای زبانی فارسی (LLM) راهاندازی شد. این سیستم جدید که توسط آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر و مرکز تحقیقات هوش مصنوعی پارت توسعه یافته، با هدف مقایسه عملکرد مدلهای مختلف در حوزههای مختلف زبانشناسی ایجاد شده است.
سیستم جدید شامل یک جدول رتبهبندی و ابزارهای ارزیابی پیشرفته است که میتواند عملکرد مدلها را در زمینههایی مانند درک متن، پاسخدهی، و دیگر قابلیتهای زبانی مقایسه کند. به گفته توسعهدهندگان “Open Persian LLM Leaderboard”، سیستمهای قبلی تنها قادر به ارزیابی مدلها در سطح دانش دبیرستان بودند، اما این سیستم جدید میتواند مدلهای زبانی فارسی را در سطح کارشناسی ارشد و در حوزههای مختلفی مانند پزشکی، اقتصاد، صنعت، منطق و مهندسی ارزیابی کند.
این سیستم با استفاده از بیش از ۴۰ هزار نمونه داده توسعه یافته و بهطور مداوم تعداد نمونهها در حال افزایش است. هدف این سیستم کمک به توسعهدهندگان است تا بتوانند مدلهای خود را بر اساس معیارهای استاندارد ارزیابی کنند و کیفیت آنها را بهبود دهند.
بخشهایی از قابلیتهای این سیستم بهصورت متنباز در وبسایت HuggingFace قرار گرفته است تا پژوهشگران و توسعهدهندگان به راحتی به آن دسترسی پیدا کنند و از آن بهرهبرداری کنند. این گام بهطور قابل توجهی میتواند به ارتقای کیفیت مدلهای زبانی فارسی و پیشرفت بیشتر در این حوزه کمک کند.
کد خبر ۱۱۲۰۳۰۸۲۸.۵۶۹