مدل‌های جدید OpenAI با وجود دقت بالا، بیشتر دچار «توهم» می‌شوند

انتشار: 31 فروردین 1404

با اینکه مدل‌های هوش مصنوعی تازه‌ معرفی‌شده OpenAI با نام‌های o3 و o4-mini در زمینه‌هایی مانند کدنویسی و ریاضی عملکرد درخشانی دارند، اما بررسی‌ها نشان می‌دهد این مدل‌ها بیشتر از نسخه‌های قبلی دچار «توهم» یا اطلاعات ساختگی می‌شوند—و این موضوع نگرانی‌هایی ایجاد کرده است.

در گزارش فنی رسمی OpenAI آمده که برخلاف انتظار، نرخ توهم (hallucination) در مدل‌های جدید بیشتر از مدل‌های پیشین مانند o1 و o3-mini است. به‌طور مشخص، مدل o3 در ۳۳٪ از پرسش‌های مربوط به دیتابیس داخلی OpenAI با نام PersonQA پاسخ‌های اشتباه یا خیالی داده، در حالی که این رقم برای مدل‌های قبلی بین ۱۴ تا ۱۶ درصد بوده است. o4-mini حتی عملکرد ضعیف‌تری داشته و در ۴۸٪ مواقع دچار توهم شده است.

یکی از نگران‌کننده‌ترین نکات اینجاست که حتی خود OpenAI هم هنوز دقیق نمی‌داند چرا این اتفاق می‌افتد. در گزارش فنی این شرکت آمده است که برای درک بهتر این مشکل، تحقیقات بیشتری مورد نیاز است.

تحقیقات مستقل نیز این موضوع را تأیید می‌کنند. آزمایشگاه تحقیقاتی Transluce گزارش داده که مدل o3 گاهی اقداماتی را که انجام نداده، در پاسخ‌های خود ذکر می‌کند. مثلاً مدعی شده که کدی را در مک‌بوک اجرا کرده و نتایجش را وارد پاسخ کرده—در حالی که از چنین قابلیتی برخوردار نیست.

کاربرد مدل‌های reasoning مانند o3 به‌طور کلی برای بهبود توانایی تفکر منطقی مدل‌ها طراحی شده‌اند، اما به نظر می‌رسد افزایش قدرت استدلال به قیمت بالا رفتن نرخ توهم تمام شده است.

کارشناسان پیشنهاد می‌دهند یکی از راه‌های کاهش این خطاها، افزودن دسترسی مستقیم به جست‌وجوی وب است—ویژگی‌ای که در مدل GPT-4o باعث شده دقت پاسخ‌ها در بنچمارک SimpleQA به ۹۰٪ برسد.

با اینکه مدل‌های جدید، نوآوری و خلاقیت بیشتری از خود نشان می‌دهند، اما توهمات بیشتر می‌تواند اعتماد کسب‌وکارها—به‌خصوص در حوزه‌هایی مانند حقوق، پزشکی و امنیت—را تحت‌تأثیر قرار دهد.

OpenAI می‌گوید تحقیقات برای کاهش این مشکل ادامه دارد و در حال کار بر روی راهکارهایی برای افزایش دقت و اعتمادپذیری این مدل‌هاست. اما اگر روند فعلی ادامه پیدا کند، پیدا کردن راه‌حلی برای مهار توهم در مدل‌های پیشرفته، به یکی از چالش‌های اصلی آینده هوش مصنوعی تبدیل خواهد شد.

کد خبر ۲۰۲۰۴۰۱۳۱.۰۲۶

منبع: تک کرانچ