تسعى طرق معالجة الأكواد عبر نماذج اللغات الضخمة (Large Language Models) إلى تحقيق مستوى عالٍ من الأداء في اختبارات البرمجة، لكن مسألة التناسق في reasoning بين التنفيذ الأمامي (forward execution) والخلفي (backward execution) لا تزال غير واضحة. في هذا الإطار، تم تقديم اختبار جديد يُعرف باسم RoundTripCodeEval (RTCE)، الذي يقيم تناسق التنفيذ من خلال أربعة مهام مختلفة تتعلق بفهم الأكواد.
يعتمد RTCE على تقييم دقيق وخالٍ من التنفيذ لكل من دقة البجكتين (bijection fidelity) عبر أربعة خوارزميات ضغط بلا خسائر. لقد تم تقييم نماذج Code-LLMs المعاصرة باستخدام عدة تقنيات مثل zero-shot prompting والتكرار الذاتي (self-reflection)، ولكن النتائج كانت متواضعة فقط، إذ لم تتمكن أي من المحاولات من سد الفجوة بين التناسق الأمامي والخلفي.
ما يكشفه RTCE عن نماذج اللغات الضخمة هو مثير للقلق: تستطيع هذه النماذج غالبًا اجتياز المهام الأمامية والخلفية، لكنها تفشل عند إجراء الاختبار الشامل الذي يتطلب تحقيق التناسق بينهما. وتظهر النتائج أيضًا أن تحسينات التكرار الذاتي والتدريب تحت الإشراف تتقلص بعد جولة واحدة من المراجعة، مما يدل على أنهن غير قادرات على تصحيح سوء الفهم الأساسي. وفي مفاجأة أكبر، ثبت أن الإخفاقات تحدث حتى في الحالات البسيطة مثل RLE، مما يشير إلى أن التعقيد الخوارزمي ليس السبب الوحيد لهذه المشاكل.
إذا كنت مهتمًا بمزيد من التفاصيل حول هذا الموضوع، يمكنك الاطلاع على [المصدر هنا](https://github.com/Nickil21/round-trip-code-compression). فما رأيكم في هذه الاكتشافات المثيرة؟ شاركونا آراءكم في التعليقات!
هل تستطيع نماذج اللغات الضخمة ضغط وفك ضغط الأكواد؟ تحليل مثير لفهم التنفيذ والتعقل العكسي!
تقدم نماذج اللغات الضخمة (LLMs) أداءً قويًا في اختبارات الأكواد، ولكن التناسق في التنفيذ الأمامي والخلفي لا يزال بعيد المنال. اكتشفوا من خلال نتائج RoundTripCodeEval (RTCE) أوجه القصور في هذه النماذج وقدرتها على الفهم البرمجي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
