محققان دانشگاه تگزاس در دالاس با کمک ابررایانههای مرکز محاسبات پیشرفته تگزاس (TACC) موفق به توسعه سامانهای نوین برای تشخیص گفتار خودکار (ASR) کودکان شدهاند؛ سیستمی که علاوه بر دقت بالا، از حریم خصوصی کودکان نیز محافظت میکند.
این پروژه که با حمایت “بنیاد ملی علوم آمریکا” (NSF) انجام میشود، بر پایهی مفهومی به نام «واحدهای گفتاری گسسته» بنا شده است. در این روش، گفتار کودک به دادههای ریاضی انتزاعی تبدیل میشود؛ دادههایی که امکان بازسازی صدا از آنها وجود ندارد. همین ویژگی باعث میشود خطر نقض حریم خصوصی از بین برود، در حالی که مدل همچنان میتواند مشکلات زبانی یا گفتاری کودکان را شناسایی کند.
به گفتهی ساتویک دوتا، پژوهشگر دکتری و نویسنده اصلی مطالعه، ساخت مدلهای ASR برای کودکان بسیار دشوار است، زیرا گفتار آنها (بهویژه زیر هشت سال) هنوز در حال شکلگیری بوده و با دادههای بزرگسالان تفاوت زیادی دارد. برای رفع این چالش، دادههای هزاران کودک در شرایط مختلف – از آموزش مجازی تا محیطهای واقعی و پر سر و صدا در مهدکودکها – جمعآوری و پردازش شد.
ابررایانه Lonestar6 نقش کلیدی در این فرایند داشته است؛ چرا که مدل مبتنی بر واحدهای گسسته تنها ۴۰ میلیون پارامتر داشت، اما توانست عملکردی مشابه مدلی با ۴۲۸ میلیون پارامتر ارائه دهد. این امر نهتنها باعث کاهش نیاز محاسباتی میشود، بلکه سرعت و بهرهوری تحقیق را هم بالا میبرد.
در ادامه، این فناوری با مدل «Whisper» (توسعهیافته توسط OpenAI) ترکیب و روی دستگاههای کوچک مثل Raspberry Pi 5 آزمایش شد تا پردازش صدا بهصورت محلی و بدون ذخیره داده خام انجام گیرد.
دوتا در پایان تأکید کرد: «هر پروژهای که برای کودکان طراحی میشود باید در اولویت، به حفظ حریم خصوصی و امنیت آنها توجه داشته باشد. ما میخواهیم آیندهای دیجیتال بسازیم که برای همه کودکان ایمن، اخلاقی و قابل اعتماد باشد.»
کد خبر ۲۱۲۰۴۰۶۰۴.۸۰۹
منبع: فیز