في عصر يسعى فيه الباحثون لتطوير التعلم المعزز (Reinforcement Learning) وتجاوزه لحدود المكافآت القابلة للتحقق، يأتي نظام QUBRIC ليحدث فرقًا حقيقيًا. هذا الإطار الجديد يركز على إعادة تصميم الاستعلامات (queries) والقواعد (rubrics) بشكل متناسق يُسهل إجراء تقييمات دقيقة للحلول المطروحة.
مع التحديات الحالية التي يواجهها التعلم المعزز، يكمن العائق الرئيسي في قيود جودة القواعد المرتبطة بتصميم الاستعلامات. حينما تُستخدم استعلامات مفتوحة، غالبًا ما تؤدي إلى قواعد مبهمة. وفي الوقت ذاته، يؤدي تضييق هذه الاستعلامات بشكل عشوائي إلى إدخال مراجع زائفة لا يمكن لأي نموذج التحقق منها، مما يعني أن جميع الردود تفشل وبالتالي لا يحصل التدريب على أي إشارة مكافأة.
نظام QUBRIC يتخطى هذه العقبات من خلال تطوير إطار عمل مترابط يعمل على تصميم الاستعلامات والقواعد المتفاعلة. يعتمد فريق العمل على النقاط الرئيسة التي ينتجها المعلمون لإعادة صياغة الاستعلامات المفتوحة إلى استفسارات محددة يمكن تقييمها. تتولى عملية إنتاج القواعد التباينية (contrastive rubric generation) تحويل الفجوات بين السياسات التعليمية إلى معايير على مستوى الاستعلام، حيث تُحتفظ فقط بأزواج الاستعلامات والقواعد المفيدة لتدريب خوارزمية GRPO.
تجارب الأداء تشير إلى أن QUBRIC حقق زيادة بلغ قدرها 5.5 نقطة على منصة ArenaHard مقارنة بقاعدة SFT. والأكثر إثارة أن نظام QUBRIC، الذي تم تدريبه استنادًا إلى بيانات تعليمية فقط، تمكن أيضًا من تحقيق قفزات ملحوظة في ثلاثة اختبارات متنوعة تشمل التفكير القانوني، الأخلاقي، والسردي، بزيادة تصل حتى 6.3 نقطة في المتوسط.
تشير هذه النتائج المثيرة إلى أن تصميم الاستعلامات والقواعد بالشكل المتداخل يمثل خطوة عملية نحو جعل التعلم المعزز بديلاً فعالًا في المهام التي تتجاوز التحديات القابلة للتحقق.
نظام QUBRIC: إعادة تصميم استعلامات التعلم المعزز لتعزيز المكافآت القابلة للتحقق
تقدم QUBRIC إطارًا مبتكرًا يجمع بين تصميم الاستعلامات والقواعد، مما يعزز كفاءة التعلم المعزز (Reinforcement Learning) في المهام التي تتجاوز المكافآت القابلة للتحقق. نتائج التجارب تشير إلى تحسن ملموس في الأداء والتحليل المنطقي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
