تحقیق جدید اپل: مدل‌های زبانی می‌توانند تنها با داده‌های صوتی و حرکتی فعالیت کاربران را تشخیص دهند

تحقیق جدید اپل: مدل‌های زبانی می‌توانند تنها با داده‌های صوتی و حرکتی فعالیت کاربران را تشخیص دهند
فهرست مطالب

اپل در تازه‌ترین پژوهش خود نشان داده است که مدل‌های زبانی بزرگ (LLM) می‌توانند فراتر از تحلیل متن عمل کرده و با استفاده از داده‌های صوتی و حرکتی، فعالیت‌های کاربر را با دقت چشمگیر تشخیص دهند. این تحقیق که در قالب مقاله‌ای با عنوان «استفاده از LLMها برای ادغام چندحسی سنسورها در تشخیص فعالیت» منتشر شده، تأکید می‌کند که ترکیب قابلیت‌های LLM با داده‌های سنسورهای مختلف، می‌تواند انقلابی در تحلیل فعالیت و پایش سلامت ایجاد کند.

به‌گفته محققان اپل، LLMها حتی زمانی که اطلاعات کامل سنسور وجود ندارد یا مدل به‌طور خاص برای این کار آموزش ندیده، قادرند از طریق توضیحات کوتاه صوتی و داده‌های حرکتی، نوع فعالیت کاربر را به‌درستی استنباط کنند. در این تحقیق، به‌جای انتقال فایل صوتی واقعی، تنها خلاصه‌های متنی تولیدشده توسط مدل صوتی و خروجی یک مدل حرکتی مبتنی بر IMU (سنسور شتاب‌سنج‌ و ژیروسکوپ) در اختیار LLM قرار گرفته است.

برای بررسی توانایی مدل‌ها، اپل از مجموعه داده عظیم Ego4D شامل هزاران ساعت ویدئو و داده‌های واقعی استفاده کرده. محققان داده‌های صوتی و حرکتی را ابتدا از مدل‌های کوچک‌تر عبور داده و سپس خروجی متنی آنها را به LLMهایی مانند Gemini 2.5 Pro و Qwen-32B سپرده‌اند تا توانایی آن‌ها در شناخت فعالیت سنجیده شود.

اپل عملکرد این مدل‌ها را در دو حالت ارزیابی کرده است:

  • زمانی که لیستی شامل ۱۲ فعالیت مختلف در اختیارشان بوده،
  • و زمانی که بدون ارائه هیچ گزینه‌ای باید فعالیت را تشخیص می‌دادند.

نتیجه این مطالعه نشان می‌دهد که ترکیب LLMها با داده‌های چندسنسوری می‌تواند در تحلیل رفتار و فعالیت‌های کاربر بسیار مؤثر باشد؛ به‌ویژه زمانی که داده‌های خام سنسورها به‌تنهایی برای تشخیص دقیق کافی نیست.

این تحقیق می‌تواند زمینه‌ساز استفاده‌های مهمی در حوزه سلامت دیجیتال و پایش فعالیت در محصولات آینده اپل باشد.

کد خبر ۲۱۲۰۴۰۹۰۲.۸۲۹

منبع: ماشین لرنینگ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *