في عالم الذكاء الاصطناعي، تسعى نماذج الرؤية واللغة والعمليات (VLA) إلى تحقيق تفاعل سلس بين التفكير المتعدد الوسائط والتحكم المادي. ولكن يظل التكيف مع مهام جديدة مع توافر القليل من العروض التوضيحية تحديًا كبيرًا. هنا يأتي الابتكار الجديد: نظام VGAS (Value-Guided Action-Chunk Selection) الذي يعد ثورة في الطريقة التي تتعامل بها النماذج مع هذه التحديات.

تتمثل المعضلة في أن الإجراءات الناتجة عن نموذج VLA المدرب مسبقًا قد تبدو معقولة من الناحية الدلالية، ولكنها غالبًا ما تفشل بسبب الغموض الهندسي الذي لا يمكن حله. هذا يعني أن الإجراءات القريبة من الهدف يمكن أن تؤدي إلى نتائج تنفيذ متباينة تحت إشراف محدود.

يعمل نظام VGAS من منظور الجيل-الانتقاء، حيث يقوم بتنفيذ أفضل اختيار من بين N خيارات لتحديد كتل الإجراءات التي هي دلاليًا دقيقة وذات هندسة صحيحة. يقوم VGAS باستخدام نموذج VLA المدرب كمولد اقتراحات عالٍ، كما يقدم نظام Q-Chunk-Former، وهو ناقد مبني على تقنية Transformer يتميز بقدرته على حل الغموض الهندسي الدقيق.

علاوة على ذلك، يتميز النظام بتطبيق التنظيم الهندسي الصريح (EGR)، الذي يشكل مشهد قيمة تمييزية للحفاظ على دقة تصنيف الإجراءات بين الخيارات القريبة من الهدف، مما يخفف من عدم استقرار القيمة تحت إشراف محدود.

تظهر التجارب والتحليلات النظرية أن VGAS يُحسن بشكل متسق من معدلات النجاح والموثوقية في ظل ظروف الشرح المحدودة وتغيير التوزيعات. نتائج هذا النظام تعد بمثابة نقطة تحول في كيفية تعامل النماذج الذكية مع مهام جديدة، حيث توفر مستوى جديدًا من الدقة والموثوقية.

للمزيد من التفاصيل، يمكنكم زيارة الكود المفتوح الخاص بالنظام على GitHub.