في عالم الذكاء الاصطناعي، يستمر التطور السريع في تقديم حلول جديدة وفعّالة. ومن خلال تقديم الإطار المبتكر المعروف باسم إنسايت (InSight)، يركز الباحثون على تعزيز قدرات نماذج اللغة والرؤية القابلة للتوجيه (Vision-Language-Action Models) في تعلم المهارات من خلال التجارب والاعتماد على الذكاء الاصطناعي فقط.

تعتبر نماذج الرؤية واللغة القابلة للتوجيه قادرة على تعلم مهارات المناورة من خلال العروض السابقة، ولكنها كانت مقيدة بقدرات المهارات المتاحة في بيانات التدريب. هنا يأتي دور إنسايت، الذي يعمل على فتح آفاق جديدة من خلال تدريب نماذج VLA على مستوى الإجراءات البدائية مثل "نقل اليد لوعاء"، "رفع للأعلى"، و"سكب الزجاجة".

يتألف إنسايت من مرحلتين رئيسيتين:
1. **خط الأنابيب الآلي للتجزئة**: يقوم بتقسيم العروض إلى عناصر بدائية معنونة عبر التحليل بواسطة نماذج اللغة والرؤية، مما يعزز القدرة على توجيه نماذج VLA.
2. **عجلة البيانات المدعومة بنموذج اللغة والرؤية**: تقوم بتحديد العناصر البدائية المفقودة المطلوبة لإنجاز مهمة جديدة، وتجرب أوتوماتيكياً تنفيذ العروض لهذه العناصر المفقودة باستخدام أدوات التحكم منخفضة المستوى المقترحة من نماذج VLA.

تم تقييم إنسايت عبر مجموعة من المهام، سواء في المحاكاة أو في العالم الحقيقي، مثل انقلاب الكتل، إغلاق الأدراج، الكنس، التدوير، والسكب، دون الحاجة إلى أي عرض بشري لهذه المهارات المستهدفة. وفي حال تعلمت هذه العناصر، يمكن تجميعها لأداء مهام جديدة وطويلة الأمد بدون حاجة لمزيد من العروض البشرية.

تُظهر نتائجنا أن القدرة على توجيه العناصر البدائية توفر أساسًا عمليًا للاكتساب المستمر للمهارات في سياسات VLA.

هل أنتم مستعدون للاطلاع على الجيل الجديد من تقنيات الذكاء الاصطناعي؟ انضموا إلينا في رحلة الابتكار هذه!