بایدو در تاریخ ۱۰ سپتامبر از طریق پلتفرم Hugging Face، نسل جدید راهکار تشخیص متن خود با نام PP-OCRv5 را معرفی کرد. این مدل سبکوزن تنها ۰.۰۷ میلیارد پارامتر دارد و در برخی آزمونها عملکردی فراتر از مدلهای پیشرفتهای چون GPT-4o، Gemini 2.5 Pro و Qwen2.5-VL نشان داده است.
به گفته بایدو، PP-OCRv5 برای رفع محدودیتهای مدلهای بزرگ بینایی-زبان (VLMs) طراحی شده و با رویکردی دو مرحلهای و ماژولار، سرعت و دقت بالایی در تشخیص و شناسایی متن ارائه میدهد.
ویژگیهای برجسته PP-OCRv5:
کارایی بالا: با حجم بسیار کم، روی CPU و حتی دستگاههای لبه قابل اجراست؛ نسخه موبایلی آن روی پردازنده Intel Xeon Gold 6271C قادر است بیش از ۳۷۰ کاراکتر در ثانیه پردازش کند.
عملکرد برتر: در تستهای OCR از جمله دستنویس و متون چاپی به زبانهای چینی، انگلیسی و پینیین از بسیاری از مدلهای عمومی قویتر ظاهر شده است.
دقت در مکانیابی: امکان ارائه مختصات دقیق خطوط متن برای استخراج دادههای ساختاریافته.
پشتیبانی چندزبانه: توانایی شناسایی بیش از ۴۰ زبان از جمله چینی ساده و سنتی، انگلیسی، ژاپنی و پینیین.
پیشپردازش هوشمند تصویر: تصحیح چرخش و اعوجاج تصاویر برای بهبود نتایج.
این دستاورد بایدو میتواند راه را برای استفاده گستردهتر از OCR سبک و دقیق در کاربردهای مختلف، از تحلیل داده گرفته تا پردازش متون چندزبانه، هموار کند.
کد خبر ۲۱۲۰۴۰۶۲۴.۸۱۳
منبع: آی تی هوم