هل تستطيع نماذج اللغات الضخمة ضغط وفك ضغط الأكواد؟ تحليل مثير لفهم التنفيذ والتعقل العكسي!

تسعى طرق معالجة الأكواد عبر نماذج اللغات الضخمة (Large Language Models) إلى تحقيق مستوى عالٍ من الأداء في اختبارات البرمجة، لكن مسألة التناسق في reasoning بين التنفيذ الأمامي (forward execution) والخلفي (backward execution) لا تزال غير واضحة. في هذا الإطار، تم تقديم اختبار جديد يُعرف باسم RoundTripCodeEval (RTCE)، الذي يقيم تناسق التنفيذ من خلال أربعة مهام مختلفة تتعلق بفهم الأكواد.

يعتمد RTCE على تقييم دقيق وخالٍ من التنفيذ لكل من دقة البجكتين (bijection fidelity) عبر أربعة خوارزميات ضغط بلا خسائر. لقد تم تقييم نماذج Code-LLMs المعاصرة باستخدام عدة تقنيات مثل zero-shot prompting والتكرار الذاتي (self-reflection)، ولكن النتائج كانت متواضعة فقط، إذ لم تتمكن أي من المحاولات من سد الفجوة بين التناسق الأمامي والخلفي.

ما يكشفه RTCE عن نماذج اللغات الضخمة هو مثير للقلق: تستطيع هذه النماذج غالبًا اجتياز المهام الأمامية والخلفية، لكنها تفشل عند إجراء الاختبار الشامل الذي يتطلب تحقيق التناسق بينهما. وتظهر النتائج أيضًا أن تحسينات التكرار الذاتي والتدريب تحت الإشراف تتقلص بعد جولة واحدة من المراجعة، مما يدل على أنهن غير قادرات على تصحيح سوء الفهم الأساسي. وفي مفاجأة أكبر، ثبت أن الإخفاقات تحدث حتى في الحالات البسيطة مثل RLE، مما يشير إلى أن التعقيد الخوارزمي ليس السبب الوحيد لهذه المشاكل.

إذا كنت مهتمًا بمزيد من التفاصيل حول هذا الموضوع، يمكنك الاطلاع على [المصدر هنا](https://github.com/Nickil21/round-trip-code-compression). فما رأيكم في هذه الاكتشافات المثيرة؟ شاركونا آراءكم في التعليقات!

هل تستطيع نماذج اللغات الضخمة ضغط وفك ضغط الأكواد؟ تحليل مثير لفهم التنفيذ والتعقل العكسي!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

تحديات تطوير تطبيق بريد إلكتروني يدهش الجميع!

ثورة الذكاء الاصطناعي: OpenAI تطلق إضافة كروم جديدة لوكيل Codex تسهل التفاعل مع أشهر المنصات!

دفاعات إلكترونية مبتكرة: نموذج CyberSecQwen-4B وجعل الأمن الإلكتروني محليًا!