با اینکه مدلهای هوش مصنوعی تازه معرفیشده OpenAI با نامهای o3 و o4-mini در زمینههایی مانند کدنویسی و ریاضی عملکرد درخشانی دارند، اما بررسیها نشان میدهد این مدلها بیشتر از نسخههای قبلی دچار «توهم» یا اطلاعات ساختگی میشوند—و این موضوع نگرانیهایی ایجاد کرده است.
در گزارش فنی رسمی OpenAI آمده که برخلاف انتظار، نرخ توهم (hallucination) در مدلهای جدید بیشتر از مدلهای پیشین مانند o1 و o3-mini است. بهطور مشخص، مدل o3 در ۳۳٪ از پرسشهای مربوط به دیتابیس داخلی OpenAI با نام PersonQA پاسخهای اشتباه یا خیالی داده، در حالی که این رقم برای مدلهای قبلی بین ۱۴ تا ۱۶ درصد بوده است. o4-mini حتی عملکرد ضعیفتری داشته و در ۴۸٪ مواقع دچار توهم شده است.
یکی از نگرانکنندهترین نکات اینجاست که حتی خود OpenAI هم هنوز دقیق نمیداند چرا این اتفاق میافتد. در گزارش فنی این شرکت آمده است که برای درک بهتر این مشکل، تحقیقات بیشتری مورد نیاز است.
تحقیقات مستقل نیز این موضوع را تأیید میکنند. آزمایشگاه تحقیقاتی Transluce گزارش داده که مدل o3 گاهی اقداماتی را که انجام نداده، در پاسخهای خود ذکر میکند. مثلاً مدعی شده که کدی را در مکبوک اجرا کرده و نتایجش را وارد پاسخ کرده—در حالی که از چنین قابلیتی برخوردار نیست.
کاربرد مدلهای reasoning مانند o3 بهطور کلی برای بهبود توانایی تفکر منطقی مدلها طراحی شدهاند، اما به نظر میرسد افزایش قدرت استدلال به قیمت بالا رفتن نرخ توهم تمام شده است.
کارشناسان پیشنهاد میدهند یکی از راههای کاهش این خطاها، افزودن دسترسی مستقیم به جستوجوی وب است—ویژگیای که در مدل GPT-4o باعث شده دقت پاسخها در بنچمارک SimpleQA به ۹۰٪ برسد.
با اینکه مدلهای جدید، نوآوری و خلاقیت بیشتری از خود نشان میدهند، اما توهمات بیشتر میتواند اعتماد کسبوکارها—بهخصوص در حوزههایی مانند حقوق، پزشکی و امنیت—را تحتتأثیر قرار دهد.
OpenAI میگوید تحقیقات برای کاهش این مشکل ادامه دارد و در حال کار بر روی راهکارهایی برای افزایش دقت و اعتمادپذیری این مدلهاست. اما اگر روند فعلی ادامه پیدا کند، پیدا کردن راهحلی برای مهار توهم در مدلهای پیشرفته، به یکی از چالشهای اصلی آینده هوش مصنوعی تبدیل خواهد شد.
کد خبر ۲۰۲۰۴۰۱۳۱.۰۲۶
منبع: تک کرانچ