في مجال الذكاء الاصطناعي، يواجه الباحثون تحديًا كبيرًا في كيفية التعامل مع الغموض الإدراكي في المدخلات البصرية. هنا يأتي دور تقنية التعلم بالسياسات المدعومة بالثنائية غير المؤكدة (DUPL)، التي تمثل خطوة نوعية في تعزيز قدرات نماذج اللغات الضخمة (Large Language Models) في سياق التعلم المعزز مع مكافآت قابلة للتحقق (RLVR).

تقدم DUPL نهجًا مبتكرًا يقوم على قياس واستغلال نوعين من الغموض: الغموض الإدراكي، الذي يتم قياسه باستخدام تباين KL المتماثل، وغموض المخرجات، الذي يُقاس باستخدام انتروبيا السياسة. هذه الديناميكية تعزز قدرة النموذج على التوجيه بذكاء نحو الحالات المعقدة أو الغامضة، حيث تعد هذه الخطوة ضرورية لتحقيق استكشاف فعال بعيدًا عن التزايد السلبي للبيانات.

عند تقييم DUPL على مجموعات بيانات متعددة الأنماط تشمل الرياضيات والمجالات العامة، أظهرت التقنية تحسنًا بارزًا في دقة النماذج. حيث زادت دقة نموذج Qwen2.5-VL بنسبة تصل إلى 12.3% لنموذج 3B و7.9% لنموذج 7B، كما حقق Qwen3-VL-Instruct تحسنًا بنسبة 10.7% لنموذج 4B و12.4% لنموذج 8B. هذه النتائج المبهرة تُظهر فعالية DUPL في تعزيز الأداء بشكل مقنع، فضلاً عن قدرتها على التعميم بسلاسة على خوارزميات وهياكل بديلة مثل DAPO وLLaVA-OneVision-1.5.

في ختام هذا المقال، يتضح أن تقنية DUPL ليست مجرد ابتكار فني، بل تمثل نقطة انطلاق جديدة في فهم الذكاء الاصطناعي متعدد النماذج وتطبيقاته.

ما رأيكم في هذه التقنيات الجديدة؟ هل تعتقدون أنها ستغير مستقبل الذكاء الاصطناعي؟ شاركونا في التعليقات.