تتطور المنازل الذكية إلى بيئات معيشية ديناميكية ومعقدة، مما يتطلب من نماذج اللغات الضخمة (Large Language Models) التفاعل والتفكير في نوايا المستخدم وتفضيلاته، بالإضافة إلى التعامل مع عدد من الأجهزة المتصلة. ومع ذلك، تعرض المعايير الحالية للمنازل الذكية قصورًا في تقديم تقييمات دقيقة حول كفاءة هذه النماذج في التعامل مع السيناريوهات المنزلية الواقعية.
للتغلب على هذه التحديات، يقدم الباحثون SMH-Bench، وهو معيار شامل مصمم لتقييم أداء نماذج اللغات الضخمة (LLMs) في بيئات المنازل الذكية. يعتمد SMH-Bench على HomeEnv، وهو محاكي قابل للتنفيذ والتحقق، ويحتوي على 1,100 مهمة عالية الجودة موزعة على 7 فئات و22 فئة فرعية دقيقة. تتيح هذه المهام تقييم أداء الأنظمة في منازل بسيطة ومتوسطة ومعقدة، بدءًا من الشقق الصغيرة وصولًا إلى البيئات المتعددة الغرف المزدحمة مع 135 جهازًا مختلفًا.
تظهر النتائج أن معظم نماذج اللغات الضخمة الحديثة تحقق أداءً جيدًا في المهام الواضحة، إلا أن هناك نقاط ضعف ملحوظة في جدولة المهام الآلية ومعالجة الغموض والتفكير الشخصي مع زيادة تعقيد البيئة المنزلية. يأمل الباحثون أن يسهم SMH-Bench في تطوير وكلاء ذكاء اصطناعي أكثر موثوقية وفهمًا للسياقات، مما يجعلها قابلة للتنفيذ عمليًا في البيئات الذكية.
ثورة المنازل الذكية: SMH-Bench يقيم قدرات نماذج اللغات الضخمة في بيئات السكن المعقدة!
أطلق الباحثون SMH-Bench، معياراً جديداً لتقييم نماذج اللغات الضخمة (LLMs) في المنازل الذكية المعقدة. يكشف البحث عن نقاط القوة والضعف في قدرة هذه النماذج على التفاعل واتخاذ القرارات في سيناريوهات الحياة اليومية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
