هوش مصنوعی هنوز در تاریخ ضعیف است: نتایج یک تحقیق جدید

انتشار: 2 بهمن 1403

یک تحقیق جدید نشان داده که با وجود توانایی‌های شگفت‌انگیز هوش مصنوعی در زمینه‌های مختلف مانند برنامه‌نویسی و تولید پادکست، این فناوری در آزمون‌های پیشرفته تاریخ همچنان ناتوان است.

پژوهشگران به تازگی یک معیار جدید به نام “Hist-LLM” برای ارزیابی مدل‌های زبان مصنوعی بزرگ (LLM) مانند GPT-4، لاما و جمنی ایجاد کرده‌اند که توانایی این مدل‌ها را در پاسخ‌دهی به سوالات تاریخی می‌سنجد.

نتایج این تحقیق که در کنفرانس معتبر NeurIPS به اشتراک گذاشته شد، نشان داد که بهترین عملکرد را مدل GPT-4 Turbo داشت، اما دقت آن تنها حدود ۴۶ درصد بود، که تفاوت زیادی با حدس تصادفی ندارد.

این تحقیق که توسط پژوهشگران موسسه علوم پیچیدگی در اتریش انجام شده، نشان داد که مدل‌های زبان مصنوعی هنوز برای درک عمیق تاریخ، به ویژه در سطح تحقیقات پیشرفته و دکتری، آماده نیستند.

این یافته‌ها به وضوح نشان می‌دهد که مدل‌های زبان مصنوعی هنوز نمی‌توانند جایگزین انسان‌ها در پاسخ به سوالات پیچیده تاریخی باشند، اما پژوهشگران امیدوارند که با بهبود این مدل‌ها، در آینده بتوانند به محققان تاریخ کمک کنند.

کد خبر ۲۱۲۰۳۱۱۰۲.۰۲۶

منبع خبر : تک کرانچ