في تطور مثير في مجال الذكاء الاصطناعي، قامت مجموعة من الباحثين بتقديم إطار عمل جديد يُعرف بـ "Rank-Then-Act" (RTA)، والذي يُحدث ثورة في طريقة تعلم سياسات التحكم من خلال مقاطع الفيديو دون الحاجة إلى مكافآت البيئة. يعتمد هذا الإطار على نموذج رؤية ولغة (Vision-Language Model) للتقييم بناءً على التقدم، مما يعزز من كفاءة التعلم ويقلل من الاعتماد على الإشارات الزمنية التافهة.
كيف يعمل هذا النظام؟ يعتمد RTA على تدريب نموذج رؤى لغوي عبر تقنية تسمى "Group Relative Policy Optimization" (GRPO) على تسلسلات إطارات مختلطة، مما يجبر النموذج على استعادة الترتيب الزمني من سياقات الرؤية. بدلاً من الاعتماد على نموذج مكافأة ثابت، يقترح الباحثون وظيفة مكافأة تعتمد على الارتباط، مما يسمح بتقييم فعالية النموذج بشكل دقيق من خلال مقارنة ترتيب التقدم المتوقع مع الفهارس الزمنية الحقيقية.
لقد أظهرت التجارب التي أجريت على مهام تحكم مختلفة، سواء كانت ثابتة مثل "PyBoy: Catrap" و"Kirby" أو مستمرة مثل "PointMaze" و"MetaWorld"، أن RTA ينافس أو يتفوق على طرق التعلم السابقة القائمة على الفيديو. بالإضافة إلى ذلك، يعتبر هذا النظام بديلاً موثوقًا وقابلًا للتوسع لتصميم المكافآت التقليدي، مما يفتح آفاق جديدة للذكاء الاصطناعي.
ربما يكون السؤال الأهم: هل ستصبح هذه الطريقة الجديدة معيارًا في تصميم أنظمة التعلم الذكي؟
شاركنا آرائك وتعليقاتك بشأن هذا التطور الرائع!
قوة التعلم من الفيديو: ربط النجاح بالترتيب بدون مكافآت!
تقدم دراسة جديدة إطار عمل مبتكر يدعى "Rank-Then-Act" لتعلم سياسات التحكم من مقاطع الفيديو المتخصصة دون الحاجة للمكافآت. هذا النظام يعد بديلاً فعالاً ومن scalable لتصميم المكافآت التقليدي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
