في عالم الذكاء الاصطناعي، تتنافس الأنظمة الذكية لتحسين قدرتها على التفكير وحل المشكلات. ولكن، كيف تفشل هذه الأنظمة في الواقع؟ الدراسة الجديدة التي تم نشرها على منصة arXiv تحت العنوان “Residual Drift Dominates Contradiction in Multi-Turn Constraint Reasoning” تقدم رؤية غير تقليدية حول هذا الموضوع.

توقع الجميع أن تكون الإجابة المتوقعة لفشل أنظمة التفكير المتعدد الأدوار (Multi-Turn Reasoning) هي ظهور تناقض منطقي، حيث يصبح الحالة الم maintained غير مرضية. ومع ذلك، يكشف الباحثون أن الوضع السائد هو في الواقع انحراف مرضٍ، حيث تبقى الحالة الداخلية متسقة، بينما تنتهك الإجابة المقدمة الالتزامات السابقة بدون أي تنبيه.

للدراسة، قام الباحثون بتطوير DRIFT-Bench (Decomposing Reasoning Into Failure Types)، وهي مجموعة بيانات من 816 مسألة اختبار موزعة عبر ثلاث مجالات قيود. وقد تم تقييم أربعة أساليب على هذه المجموعة عبر أربعة نماذج مفتوحة الوزن تتراوح بين 8B و120B من المعلمات.

أثبت أسلوب MUS-Repair، الذي يقوم بإعادة تغذية أقل مجموعات غير مرضية إلى المُنتِج، قوته في كل الإعدادات، حيث حقق تحسنًا بين 1.8 إلى 15.0 نقطة مئوية مقارنةً بأفضل نموذج لا يعتمد على MUS. ومع ذلك، فإن النتيجة المركزية تكمن في ما يتركه الإصلاح خلفه؛ فعلى الرغم من تلقي نماذج تغذية منظمة، إلا أنها نادرًا ما تتناقض مع نفسها بل تتجه نحو نسيان التفاصيل.

يرتفع معدل الأخطاء المتبقية بسبب هذا الانحراف المرضي بين 98-100% في جميع الإعدادات، بينما ينخفض التناقض إلى مستويات قريبة من الصفر. لذا، يصبح من الضروري على الأنظمة متعددة الأدوار أن تتحقق من أن الإجابة المسترجعة تحترم الحالة المحتفظ بها. يمكنك الاطلاع على الكود الخاص بالدراسة على الرابط التالي: DRIFT-Bench Code.

وامام هذه الاتجاهات الجديدة، كيف برأيك يمكن للذكاء الاصطناعي تحسين دقة إجابات أنظمته؟ شاركونا آرائكم في التعليقات.