هوش مصنوعی «عالم‌گیر» GPT-4o رونمایی شد؛ حیرت‌انگیز، پرسرعت و رایگان!

انتشار: 25 اردیبهشت 1403

OpenAI مدل زبانی بزرگ جدیدی به نام GPT-4o معرفی کرد که سرعت قابل توجهی دارد و به رایگان در دسترس همه قرار می‌گیرد.
مدل زبانی بزرگ جدید GPT-4o شرکت OpenAI در جریان مراسم ویژه‌ی این شرکت رونمایی شد. GPT-4o نسخه‌ی اصلاح‌شده‌ی مدل زبانی GPT-4 است که به‌عنوان قلب تپنده‌ی چت‌بات معروف ChatGPT عمل می‌کند. حرف o در عبارت GPT-4o مخفف Omni به معنی عالم‌گیر یا جهانی است.
بر اساس گفته‌ی میرا موراتی، مدیر ارشد فناوری OpenAI، مدل جدید این شرکت بسیار سریع‌تر است و در زمینه‌ی درک متن و محتوای تصویری و محتوای صوتی عملکرد چشمگیری از خود نشان می‌دهد.
OpenAI می‌گوید که مدل زبانی بزرگ GPT-4o به رایگان در دسترس همه‌ی مردم قرار می‌گیرد، با این‌حال محدودیت‌ ظرفیت کاربران نسخه‌ی اشتراکی پنج برابرِ کاربران نسخه‌ی رایگان است؛ به این معنی که کاربران اشتراکی می‌توانند روزانه پنج برابر درخواست بیشتر ارسال کنند.
در بخشی از مراسم OpenAI شاهد عملکرد حیرت‌انگیز GPT-4o در حل مسائل ریاضی و حتی درک لحن حرف‌زدن کاربر بودیم. قابلیت صوتی جدید GPT-4o کاملا به احساسات کاربر واکنش نشان می‌دهد و با لحنی صمیمی مشغول صحبت‌کردن و حتی داستان‌گفتن می‌شود.
سم آلتمن، مدیرعامل OpenAI، اعلام کرد که مدل GPT-4o «به‌صورت ذاتی، چند حالته است.» این یعنی مدل جدید می‌تواند افزون‌بر متن، محتواهای صوتی و تصویری را تولید کند و بفهمد.
توسعه‌دهندگانی که به GPT-4o علاقه‌مند هستند، می‌توانند API این مدل هوش مصنوعی را با نصف قیمت GPT-4 Turbo خریداری کنند. GPT-4o به‌میزان دو برابر سریع‌تر از نسخه‌ی Turbo است.
بر اساس گفته‌ی OpenAI، اکثر قابلیت‌های مدل هوش مصنوعی جدید این شرکت به‌صورت تدریجی در دسترس قرار می‌گیرند؛ با این‌حال قابلیت‌های متنی و تصویری از همین امروز در چت‌بات ChatGPT قابل دسترس هستند.
به گفته ی زومیت ، مدل زبانی GPT-4o قدمی در راستای طبیعی‌شدن تعامل انسان با کامپیوتر است و می‌تواند در تنها ۲۳۲ میلی‌ثانیه (میانگین ۳۲۰ میلی‌ثانیه)، به ورودی‌های صوتی پاسخ دهد؛ OpenAI ادعا می‌کند که زمان پاسخ‌دهی GPT-4o مشابه زمان پاسخ‌دهی انسان در مکالمات روزمره است.
GPT-4o در زمینه‌ی فهم متن‌های انگلیسی و کد، هم‌سطح نسخه‌ی Turbo ظاهر می‌شود، اما ارزان‌تر و بسیار سریع‌تر است. این مدل زبانی جدید به‌طور ویژه در توانایی درک محتوای بصری و صوتی تقویت شده است.
تا پیش از انتشار GPT-4o می‌توانستید ازطریق قابلیت Voice Mode و با تأخیر ۲٫۸ ثانیه‌ای (در GPT-3.5) یا ۵٫۴ ثانیه‌ای (در GPT-4) با ChatGPT گفت‌و‌گو کنید. Voice Mode برای ارائه‌ی این قابلیت، به سه مدل اتکا می‌کند: یک مدل ساده برای تبدیل صدا به متن، GPT-3.5 یا GPT-4 برای تبدیل متن به متن و در نهایت مدل سوم برای تبدیل متن به صدا.
با انتشار GPT-4o، سازوکار قابلیت صوتی ChatGPT تغییر می‌کند. OpenAI می‌گوید که یک مدل جدید توسعه داده است که به‌طور کامل به متن و صدا و تصویر دسترسی دارد و سرعت بسیار بالاتری ارائه می‌دهد.
بر اساس گفته‌ی OpenAI، مدل هوش مصنوعی GPT-4o در کنار عملکرد سریع و دقیق، توجه ویژه‌ای به ایمنی دارد و محتواهای حساس را تولید نمی‌کند.

کد خبر ۲۱۳۰۳۰۲۲۵.۵۶۹