گزارش جدیدی نشان میدهد مدل هوش مصنوعی o3 که دسامبر گذشته توسط OpenAI معرفی شد، در واقع آنطور که ادعا شده بود قدرتمند نیست. در زمان معرفی، شرکت اعلام کرد که o3 توانسته بیش از ۲۵٪ از مسائل دشوار FrontierMath را حل کند؛ اما بررسیهای مستقل مؤسسه Epoch AI این عدد را نزدیک به ۱۰٪ اعلام کردهاند.
این اختلاف باعث شده برخی کارشناسان، شفافیت OpenAI در مورد عملکرد واقعی مدلهایش را زیر سؤال ببرند. گویا آن عدد بالا مربوط به نسخهای از o3 بوده که با پردازش بسیار قویتر نسبت به نسخه عمومی امروز تست شده است.
به گفته تیم فنی OpenAI، نسخهی فعلی o3 که برای کاربران عرضه شده، برای استفاده واقعی و سرعت بیشتر بهینهسازی شده و به همین دلیل عملکرد متفاوتی دارد. آنها تأکید کردهاند که «این مدل برای کاربردهای روزمره مناسبتر است».
این موضوع همچنین یادآور میشود که نتایج بنچمارک مدلهای هوش مصنوعی همیشه دقیق نیستند، بهویژه وقتی از سوی شرکتهای تجاری منتشر میشوند. اختلافات مشابهی پیشتر نیز در مورد مدلهای شرکتهایی مانند xAI و Meta دیده شده بود.
با وجود این، OpenAI وعده داده که بهزودی نسخه قدرتمندتر o3-pro را عرضه خواهد کرد؛ مدلی که انتظار میرود عملکردی بسیار بهتر از نسخه فعلی داشته باشد.
کد خبر ۲۱۳۰۴۰۲۰۱.۰۲۶
منبع: تک کرانچ