هوش مصنوعی صوتی ویژه کودکان با حفظ حریم خصوصی

انتشار: 4 شهریور 1404

محققان دانشگاه تگزاس در دالاس با کمک ابررایانه‌های مرکز محاسبات پیشرفته تگزاس (TACC) موفق به توسعه سامانه‌ای نوین برای تشخیص گفتار خودکار (ASR) کودکان شده‌اند؛ سیستمی که علاوه بر دقت بالا، از حریم خصوصی کودکان نیز محافظت می‌کند.

این پروژه که با حمایت “بنیاد ملی علوم آمریکا” (NSF) انجام می‌شود، بر پایه‌ی مفهومی به نام «واحدهای گفتاری گسسته» بنا شده است. در این روش، گفتار کودک به داده‌های ریاضی انتزاعی تبدیل می‌شود؛ داده‌هایی که امکان بازسازی صدا از آن‌ها وجود ندارد. همین ویژگی باعث می‌شود خطر نقض حریم خصوصی از بین برود، در حالی که مدل همچنان می‌تواند مشکلات زبانی یا گفتاری کودکان را شناسایی کند.

به گفته‌ی ساتویک دوتا، پژوهشگر دکتری و نویسنده اصلی مطالعه، ساخت مدل‌های ASR برای کودکان بسیار دشوار است، زیرا گفتار آن‌ها (به‌ویژه زیر هشت سال) هنوز در حال شکل‌گیری بوده و با داده‌های بزرگسالان تفاوت زیادی دارد. برای رفع این چالش، داده‌های هزاران کودک در شرایط مختلف – از آموزش مجازی تا محیط‌های واقعی و پر سر و صدا در مهدکودک‌ها – جمع‌آوری و پردازش شد.

ابررایانه Lonestar6 نقش کلیدی در این فرایند داشته است؛ چرا که مدل مبتنی بر واحدهای گسسته تنها ۴۰ میلیون پارامتر داشت، اما توانست عملکردی مشابه مدلی با ۴۲۸ میلیون پارامتر ارائه دهد. این امر نه‌تنها باعث کاهش نیاز محاسباتی می‌شود، بلکه سرعت و بهره‌وری تحقیق را هم بالا می‌برد.

در ادامه، این فناوری با مدل «Whisper» (توسعه‌یافته توسط OpenAI) ترکیب و روی دستگاه‌های کوچک مثل Raspberry Pi 5 آزمایش شد تا پردازش صدا به‌صورت محلی و بدون ذخیره داده خام انجام گیرد.

دوتا در پایان تأکید کرد: «هر پروژه‌ای که برای کودکان طراحی می‌شود باید در اولویت، به حفظ حریم خصوصی و امنیت آن‌ها توجه داشته باشد. ما می‌خواهیم آینده‌ای دیجیتال بسازیم که برای همه کودکان ایمن، اخلاقی و قابل اعتماد باشد.»

کد خبر ۲۱۲۰۴۰۶۰۴.۸۰۹

منبع: فیز