راه‌اندازی سیستم ارزیابی مدل‌های زبانی فارسی برای رتبه‌بندی LLMها

انتشار: 28 آبان 1403

یک سیستم جامع و پیشرفته برای ارزیابی و رتبه‌بندی مدل‌های زبانی فارسی (LLM) راه‌اندازی شد. این سیستم جدید که توسط آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر و مرکز تحقیقات هوش مصنوعی پارت توسعه یافته، با هدف مقایسه عملکرد مدل‌های مختلف در حوزه‌های مختلف زبان‌شناسی ایجاد شده است.

سیستم جدید شامل یک جدول رتبه‌بندی و ابزارهای ارزیابی پیشرفته است که می‌تواند عملکرد مدل‌ها را در زمینه‌هایی مانند درک متن، پاسخ‌دهی، و دیگر قابلیت‌های زبانی مقایسه کند. به گفته توسعه‌دهندگان “Open Persian LLM Leaderboard”، سیستم‌های قبلی تنها قادر به ارزیابی مدل‌ها در سطح دانش دبیرستان بودند، اما این سیستم جدید می‌تواند مدل‌های زبانی فارسی را در سطح کارشناسی ارشد و در حوزه‌های مختلفی مانند پزشکی، اقتصاد، صنعت، منطق و مهندسی ارزیابی کند.

این سیستم با استفاده از بیش از ۴۰ هزار نمونه داده توسعه یافته و به‌طور مداوم تعداد نمونه‌ها در حال افزایش است. هدف این سیستم کمک به توسعه‌دهندگان است تا بتوانند مدل‌های خود را بر اساس معیارهای استاندارد ارزیابی کنند و کیفیت آن‌ها را بهبود دهند.

بخش‌هایی از قابلیت‌های این سیستم به‌صورت متن‌باز در وب‌سایت HuggingFace قرار گرفته است تا پژوهشگران و توسعه‌دهندگان به راحتی به آن دسترسی پیدا کنند و از آن بهره‌برداری کنند. این گام به‌طور قابل توجهی می‌تواند به ارتقای کیفیت مدل‌های زبانی فارسی و پیشرفت بیشتر در این حوزه کمک کند.

کد خبر ۱۱۲۰۳۰۸۲۸.۵۶۹