تتجه الأبحاث الحديثة في مجال الذكاء الاصطناعي نحو تطبيقات أكثر تفاعلاً وكفاءة، ومن بين هذه التطورات المثيرة يأتي مفهوم "التدريب الهجين" (Hybrid Training) الذي يمهد الطريق لتحسين أداء الروبوتات من خلال استخدام نماذج الرؤية واللغة والأفعال (Vision-Language-Action Models).

تظهر الأبحاث أن استخدام نماذج اللغة الضخمة (Large Language Models) لإنتاج "أفكار متسللة" (Chain-of-thought) قبل تقديم الإجابات قد ساهم في حل مهام لغوية معقدة بنجاح ملحوظ. في عالم الروبوتات، تبين أن استراتيجيات التفكير المتجسد (embodied CoT) التي تنشئ أفكارًا قبل اتخاذ الإجراءات تؤدي أيضًا إلى تحسن كبير في الأداء عند استخدام نماذج (VLAs).

لكن كما هو الحال في معظم الابتكارات، فإن زيادة طول المدخلات الناتجة من النموذج تشمل تلك الأفكار يمكن أن تؤثر سلبًا على زمن الاستنتاج، مما يؤدي إلى تأخير تنفيذ الإجراءات في الإعدادات العملية. فهل فعلاً تعتبر "توليد سلاسل أفكار طويلة" شرطًا مسبقًا رئيسيًا لتحقيق تحسينات في الأداء؟

تقدم دراستنا فكرة التدريب الهجين (HyT) كإطار عمل يتيح لنماذج (VLAs) التعلم من الأفكار والاستفادة من تحسين الأداء المرتبط، مع إمكانية تجاوز توليد الأفكار أثناء الاستنتاج. من خلال تعلم توقع مجموعة متنوعة من المخرجات بشكل شرطي، يدعم HyT المرونة في زمن الاستنتاج، مما يمكّن النموذج من التنبؤ بالإجراءات مباشرة، أو توليد الأفكار، أو اتباع التعليمات.

قمنا بتقييم الطريقة المقترحة من خلال مجموعة من التجارب المحاكاة والتجارب الواقعية، مما يعكس الإمكانيات الواسعة لهذا النوع من التدريب في استخدامات الذكاء الاصطناعي المختلفة.