انتشار مدل جدید OCR بایدو: PP-OCRv5 سریع‌تر و دقیق‌تر از رقبا

انتشار: 24 شهریور 1404

بایدو در تاریخ ۱۰ سپتامبر از طریق پلتفرم Hugging Face، نسل جدید راهکار تشخیص متن خود با نام PP-OCRv5 را معرفی کرد. این مدل سبک‌وزن تنها ۰.۰۷ میلیارد پارامتر دارد و در برخی آزمون‌ها عملکردی فراتر از مدل‌های پیشرفته‌ای چون GPT-4o، Gemini 2.5 Pro و Qwen2.5-VL نشان داده است.

به گفته بایدو، PP-OCRv5 برای رفع محدودیت‌های مدل‌های بزرگ بینایی-زبان (VLMs) طراحی شده و با رویکردی دو مرحله‌ای و ماژولار، سرعت و دقت بالایی در تشخیص و شناسایی متن ارائه می‌دهد.

ویژگی‌های برجسته PP-OCRv5:

کارایی بالا: با حجم بسیار کم، روی CPU و حتی دستگاه‌های لبه قابل اجراست؛ نسخه موبایلی آن روی پردازنده Intel Xeon Gold 6271C قادر است بیش از ۳۷۰ کاراکتر در ثانیه پردازش کند.

عملکرد برتر: در تست‌های OCR از جمله دست‌نویس و متون چاپی به زبان‌های چینی، انگلیسی و پین‌یین از بسیاری از مدل‌های عمومی قوی‌تر ظاهر شده است.

دقت در مکان‌یابی: امکان ارائه مختصات دقیق خطوط متن برای استخراج داده‌های ساختاریافته.

پشتیبانی چندزبانه: توانایی شناسایی بیش از ۴۰ زبان از جمله چینی ساده و سنتی، انگلیسی، ژاپنی و پین‌یین.

پیش‌پردازش هوشمند تصویر: تصحیح چرخش و اعوجاج تصاویر برای بهبود نتایج.

این دستاورد بایدو می‌تواند راه را برای استفاده گسترده‌تر از OCR سبک و دقیق در کاربردهای مختلف، از تحلیل داده گرفته تا پردازش متون چندزبانه، هموار کند.

کد خبر ۲۱۲۰۴۰۶۲۴.۸۱۳

منبع: آی تی هوم