في عالم تسوده التكنولوجيا الحديثة، أصبح من الضروري تمكين الروبوتات من فهم وتنفيذ المهام بناءً على الأوامر المنطوقة بلغة الإنسان. ومع أن هناك تقدمًا كبيرًا في استخدام نماذج الأساس مثل نماذج الرؤية واللغة (Vision-Language Models) ونماذج الرؤية-اللغة-العمل (Vision-Language-Action)، إلا أن هذه الأساليب تتطلب كميات هائلة من البيانات. بالمقابل، يوفر التعلم المعتمد على تقنيات المحاكاة (Imitation Learning) كفاءة في استخدام البيانات، ولكن يفتقر إلى الأساس اللغوي المطلوب لفهم الأوامر البشرية بشكل صحيح.
وتمثل الورقة البحثية الجديدة التي نُشرت تحت عنوان "CLASP" جسرًا هامًا بين هذين المنهجين. حيث تطبق معمارية معيارية تدمج بين تقنيات الحركة المعتمدة على المتغيرات (TP-Kernelized Movement Primitives) مع نماذج الرؤية-اللغة المدربة مسبقًا، مما يفتح أمام الروبوتات آفاقًا جديدة في التعلم والتنفيذ.
يتم اكتساب المهارات خلال جلسات تعليمية تعتمد على 2 إلى 5 محاكاة حركية، حيث تساهم نماذج الرؤية-اللغة في توليد مخططات مهارية توضح المعلمات والشروط المسبقة لكل مهارة. وعند التنفيذ، تقوم هذه النماذج بتفسير الأوامر من أجل اختيار المهارات المناسبة، وتحليل الارتباطات المعلمية، وابتكار سلوكيات جديدة من خلال تركيب مثير للإعجاب.
إذا لم تكن هنالك مهارة أو تركيب مناسب، يتعرف النظام على الثغرات في القدرات ويطلب عرض موجه لتحقيق الهدف، وكل ذلك دون الحاجة إلى ضبط المعلمات بشكل يدوي.
أثبتت التجارب التي تمت علىManipulator بسبعة درجات حرية نجاحًا يتراوح بين 73.3% إلى 100% في سيناريوهات تتطلب اختيار المهارات والتركيب والتعلم النشط. هذه الإنجازات تقدم مفاهيم جديدة تعيد تشكيل كيفية تعاملنا مع الروبوتات المعقدة وتفتح آفاقًا جديدة أمام استخدامها في حياتنا اليومية.
ثورة الذكاء الاصطناعي: كيف تتعلم الروبوتات من الأوامر باللغة الطبيعية؟
توصلت دراسة جديدة إلى طريقة مبتكرة لتمكين الروبوتات من فهم وتنفيذ الأوامر باللغة الطبيعية بكفاءة عالية. اعتمدت هذه الطريقة على دمج نماذج الذكاء الاصطناعي لتحسين تعلم المهارات الروبوتية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
