ویکیپدیا با مشکلاتی که رباتهای هوش مصنوعی در حال استخراج دادهها از این دایرهالمعارف برای آموزش مدلهای تولید محتوا به وجود آوردهاند، دست و پنجه نرم میکند.
این رباتها باعث افزایش هزینهها و کاهش سرعت بارگذاری برای کاربران انسانی میشوند. برای مقابله با این مسئله، بنیاد ویکیمدیا که مدیریت دادههای ویکیپدیا را بر عهده دارد، دیتاستی را به توسعهدهندگان هوش مصنوعی ارائه میدهد.
بنیاد ویکیمدیا با همکاری پلتفرم دادهکاوی کگل، یک نسخه بتا از دیتاست ساختاریافته به زبانهای انگلیسی و فرانسوی ارائه کرده است. این دیتاست به گونهای فرمتبندی شده که برای یادگیری ماشین بسیار مفید باشد و شامل اطلاعاتی از جمله خلاصهها، توضیحات کوتاه، دادههای کلیدی بهشیوه جدولی، لینکهای تصویر و بخشهای مقاله بهصورت جداگانه است.
با این حال، به دلیل نبود منابع و عناصر غیرمتنی مانند ویدیو، مشکل ارجاع به اطلاعات موجود در دیتاست ممکن است به چالش کشیده شود.
اگرچه، محتوای موجود در این دیتاست تحت مجوزهای Creative Commons و دامنه عمومی آزاد است، بنابراین توسعهدهندگان میتوانند بدون نگرانی از استفاده از آن بهرهبرداری کنند.
کد خبر ۲۱۲۰۴۰۲۰۲.۱۴۳
منبع: انگجت