یک استارتاپ هوش مصنوعی مستقر در بنگلورو با نام Sarvam AI اعلام کرده مدلهایش در حوزه تشخیص کاراکتر نوری (OCR) و گفتار چندزبانه، عملکردی بهتر از رقبای جهانی مانند ChatGPT و Gemini دارند؛ بهویژه زمانی که پای زبانهای متنوع و پیچیده هندی در میان باشد.
چتباتهای مطرح جهانی معمولاً در پردازش زبان انگلیسی بسیار قدرتمند هستند، اما هنگام مواجهه با خطها و ظرافتهای زبانی هند، دقت آنها کاهش مییابد. سروم AI با تمرکز ویژه بر نیازهای زبانی کاربران هندی، دو مدل اصلی خود یعنی Sarvam Vision و Bulbul V3 را توسعه داده است.
مدل Sarvam Vision توانایی خواندن جداول پیچیده، تحلیل نمودارها، تشخیص متن در تصاویر واقعی و تولید توضیح تصویر را دارد. در کنار آن، Bulbul V3 بهعنوان سامانه تبدیل متن به گفتار، از ۲۲ زبان رسمی هند و ۳۵ صدای مختلف پشتیبانی میکند تا لحن و ریتم طبیعیتری ارائه دهد؛ موضوعی که برای کاربران چندزبانه اهمیت زیادی دارد.
سروم AI خود را سازنده «هوش مصنوعی حاکمیتی» (Sovereign AI) معرفی میکند؛ رویکردی که بر توسعه مدلهایی متناسب با دادهها، فرهنگ و نیازهای بومی هند تأکید دارد. این شرکت معتقد است با گسترش استفاده از هوش مصنوعی در دولت، آموزش و کسبوکار، اهمیت بومیسازی مدلها بیش از پیش نمایان میشود.
اگر ادعاهای این استارتاپ در عمل نیز تأیید شود، میتواند شرکتهای بزرگ فناوری را وادار کند پشتیبانی بهتری از زبانها و خطهای متنوع جهان ارائه دهند. سروم بر این باور است که آینده هوش مصنوعی فقط به مقیاس بزرگ وابسته نیست، بلکه به توجه دقیق به تفاوتهای فرهنگی و زبانی نیز گره خورده است.
کد خبر ۲۱۲۰۴۱۲۰۲.۱۲۰
منبع: تک رادار