یک تحقیق جدید نشان داده که با وجود تواناییهای شگفتانگیز هوش مصنوعی در زمینههای مختلف مانند برنامهنویسی و تولید پادکست، این فناوری در آزمونهای پیشرفته تاریخ همچنان ناتوان است.
پژوهشگران به تازگی یک معیار جدید به نام “Hist-LLM” برای ارزیابی مدلهای زبان مصنوعی بزرگ (LLM) مانند GPT-4، لاما و جمنی ایجاد کردهاند که توانایی این مدلها را در پاسخدهی به سوالات تاریخی میسنجد.
نتایج این تحقیق که در کنفرانس معتبر NeurIPS به اشتراک گذاشته شد، نشان داد که بهترین عملکرد را مدل GPT-4 Turbo داشت، اما دقت آن تنها حدود ۴۶ درصد بود، که تفاوت زیادی با حدس تصادفی ندارد.
این تحقیق که توسط پژوهشگران موسسه علوم پیچیدگی در اتریش انجام شده، نشان داد که مدلهای زبان مصنوعی هنوز برای درک عمیق تاریخ، به ویژه در سطح تحقیقات پیشرفته و دکتری، آماده نیستند.
این یافتهها به وضوح نشان میدهد که مدلهای زبان مصنوعی هنوز نمیتوانند جایگزین انسانها در پاسخ به سوالات پیچیده تاریخی باشند، اما پژوهشگران امیدوارند که با بهبود این مدلها، در آینده بتوانند به محققان تاریخ کمک کنند.
کد خبر ۲۱۲۰۳۱۱۰۲.۰۲۶
منبع خبر : تک کرانچ