اپل در تازهترین پژوهش خود نشان داده است که مدلهای زبانی بزرگ (LLM) میتوانند فراتر از تحلیل متن عمل کرده و با استفاده از دادههای صوتی و حرکتی، فعالیتهای کاربر را با دقت چشمگیر تشخیص دهند. این تحقیق که در قالب مقالهای با عنوان «استفاده از LLMها برای ادغام چندحسی سنسورها در تشخیص فعالیت» منتشر شده، تأکید میکند که ترکیب قابلیتهای LLM با دادههای سنسورهای مختلف، میتواند انقلابی در تحلیل فعالیت و پایش سلامت ایجاد کند.
بهگفته محققان اپل، LLMها حتی زمانی که اطلاعات کامل سنسور وجود ندارد یا مدل بهطور خاص برای این کار آموزش ندیده، قادرند از طریق توضیحات کوتاه صوتی و دادههای حرکتی، نوع فعالیت کاربر را بهدرستی استنباط کنند. در این تحقیق، بهجای انتقال فایل صوتی واقعی، تنها خلاصههای متنی تولیدشده توسط مدل صوتی و خروجی یک مدل حرکتی مبتنی بر IMU (سنسور شتابسنج و ژیروسکوپ) در اختیار LLM قرار گرفته است.
برای بررسی توانایی مدلها، اپل از مجموعه داده عظیم Ego4D شامل هزاران ساعت ویدئو و دادههای واقعی استفاده کرده. محققان دادههای صوتی و حرکتی را ابتدا از مدلهای کوچکتر عبور داده و سپس خروجی متنی آنها را به LLMهایی مانند Gemini 2.5 Pro و Qwen-32B سپردهاند تا توانایی آنها در شناخت فعالیت سنجیده شود.
اپل عملکرد این مدلها را در دو حالت ارزیابی کرده است:
- زمانی که لیستی شامل ۱۲ فعالیت مختلف در اختیارشان بوده،
- و زمانی که بدون ارائه هیچ گزینهای باید فعالیت را تشخیص میدادند.
نتیجه این مطالعه نشان میدهد که ترکیب LLMها با دادههای چندسنسوری میتواند در تحلیل رفتار و فعالیتهای کاربر بسیار مؤثر باشد؛ بهویژه زمانی که دادههای خام سنسورها بهتنهایی برای تشخیص دقیق کافی نیست.
این تحقیق میتواند زمینهساز استفادههای مهمی در حوزه سلامت دیجیتال و پایش فعالیت در محصولات آینده اپل باشد.
کد خبر ۲۱۲۰۴۰۹۰۲.۸۲۹
منبع: ماشین لرنینگ