جمینای ۳.۱ پرو معرفی شد؛ جهش بزرگ در استدلال و عملکرد عاملی

انتشار: 4 اسفند 1404

Google از نسخه جدید مدل پرچم‌دار خود با نام Gemini 3.1 Pro رونمایی کرد؛ مدلی که به گفته این شرکت، در بنچمارک‌های مهم عملکردی فراتر از نسخه‌های قبلی و حتی رقیب خود یعنی GPT-5.2 داشته است.

این نسخه که تنها چند ماه پس از انتشار Gemini 3 عرضه می‌شود، از امروز در قالب پیش‌نمایش در اختیار توسعه‌دهندگان، سازمان‌ها و کاربران قرار گرفته و تمرکز آن بر تقویت استدلال پیشرفته، بهبود کدنویسی و پردازش اسناد طولانی است.

در آزمون Humanity’s Last Exam که دانش پیشرفته در حوزه‌های مختلف را می‌سنجد، Gemini 3.1 Pro موفق به کسب امتیاز ۴۴.۴٪ شد؛ در حالی‌که Gemini 3 Pro امتیاز ۳۷.۵٪ و GPT-5.2 امتیاز ۳۴.۵٪ را ثبت کرده بودند.

همچنین در بنچمارک ARC-AGI-2 که توانایی حل مسائل استدلالی نوظهور را ارزیابی می‌کند، عملکرد مدل جدید از ۳۱.۱٪ به ۷۷.۱٪ جهش کرده؛ رشدی بیش از دو برابر نسبت به نسخه قبل.

با این حال، این مدل در همه رتبه‌بندی‌ها صدرنشین نیست. در پلتفرم Arena، مدل Claude Opus 4.6 در برخی وظایف متنی و کدنویسی همچنان بالاتر از جمینای قرار دارد. رتبه‌بندی Arena بر اساس رأی کاربران انجام می‌شود و ممکن است پاسخ‌های «ظاهراً درست» را حتی با وجود خطاهای ظریف، ترجیح دهد.

گوگل اعلام کرده Gemini 3.1 Pro اکنون می‌تواند:

بلوک‌های بزرگ‌تری از کد را در یک نشست پردازش کند
توابع پیچیده را توضیح دهد
خطاهای برنامه‌نویسی را دقیق‌تر رفع کند

همچنین این مدل از یک میلیون توکن ورودی و ۶۴ هزار توکن خروجی پشتیبانی می‌کند؛ قابلیتی که به کسب‌وکارها اجازه می‌دهد قراردادها، گزارش‌ها و اسناد تحقیقاتی حجیم را بدون تقسیم‌بندی تحلیل کنند.

در بنچمارک APEX-Agents که عملکرد مدل در اجرای وظایف چندمرحله‌ای (agentic workflows) را می‌سنجد، امتیاز Gemini 3.1 Pro تقریباً دو برابر شده است؛ موضوعی که نشان‌دهنده تمرکز گوگل بر استقرار عملی هوش مصنوعی در محیط‌های واقعی کاری است.

گوگل قیمت API را بدون تغییر حفظ کرده است:
۲ دلار برای هر یک میلیون توکن ورودی و ۱۲ دلار برای هر یک میلیون توکن خروجی؛ تصمیمی که می‌تواند برای استارتاپ‌ها و تیم‌های سازمانی جذاب باشد.

Gemini 3.1 Pro از طریق AI Studio، Vertex AI، Gemini Enterprise، اپلیکیشن Gemini و NotebookLM در دسترس قرار گرفته است.

در حالی که رقابت مدل‌های هوش مصنوعی در آمریکا بر سر قدرت استدلال، عمق کدنویسی و پردازش متون طولانی شدت گرفته، گوگل با این به‌روزرسانی نشان داده تمرکز اصلی‌اش بر کاربردپذیری واقعی در محیط‌های کاری است؛ حتی اگر در همه جدول‌های رتبه‌بندی اول نباشد.

به نظر می‌رسد نبرد مدل‌های سازمانی وارد مرحله‌ای تازه شده است.

کد خبر ۲۱۲۰۴۱۲۰۴.۰۲۷

منبع: اینترستینگ اینجیرینگ