في مرور سريع للتطورات التقنية، باتت نماذج اللغات الضخمة (LLMs) تلعب دوراً محورياً في توليد الشيفرات البرمجية، مما يدعو إلى ضرورة مراجعة كيفية تقييم هذه الشيفرات. في هذا السياق، ظهرت فكرة جديدة تتجسد في SWE-IF، أداة مصممة لجعل تقييم الكود متوافقًا مع التفضيلات البشرية.
تهدف SWE-IF إلى تعزيز تجربة المستخدم من خلال تمكين نماذج اللغات الضخمة (LLMs) من إنتاج كود لا يتبع مجرد القواعد الوظيفية، بل أيضاً يكون ملائمًا من الناحية التعبيرية والنظرة الظاهرة. فمفهوم "تقييم الطابع" (vibe check) يذهب أبعد من مجرد الصلاحية الوظيفية، حيث يجب أن يشعر المستخدم أن الشيفرة "صحيحة"، أن المقروئية جيدة، وأن النية محفوظة.
ومع ذلك، يبدو أن طرق التقييم الحالية تركز بشكل مفرط على الأداء الوظيفي، مما يغفل جوانبٍ مهمة تتعلق بالتعليمات غير الوظيفية التي يعتمد عليها المستخدمون يومياً. هنا تأتي أهمية الدراسة، حيث تفترض أن استيعاب التعليمات يعد جزءاً أساسياً من تقييم الكود يتجاوز الصلاحية الوظيفية.
لتقديم تقييمات دقيقة، تم تطوير "VeriCode"، وهو تصنيف يضم 30 تعليمية قابلة للتحقق مع أدوات مخصصة للتأكيد، ثم تم استخدام هذا التصنيف لتحسين مجموعات التقييم المعروفة، لتظهر نتيجة SWE-IF. توصل الباحثون من خلال تجربتهم على 31 نموذجاً من LLMs إلى نتائج مثيرة، حيث أظهرت أن هذه النماذج حتى الأقوى بينها تواجه صعوبة في الامتثال لعدد من التعليمات، ما أدى إلى تراجع في الأداء الوظيفي.
الأهم من ذلك، أن جمع الدرجات الوظيفية وامتثال التعليمات كان الأكثر ارتباطاً بتفضيلات البشر، حيث برزت قدرة التعليمات كعامل تمييز أساس بين نماذج LLMs المختلفة.
هذه الأبحاث المدعومة بالبيانات والأكواد ووسائل التقييم ستكون متاحة لجمهور المطورين والباحثين عبر GitHub. هل تعتقد أن تضمين التفضيلات البشرية في تقييم الكود سيغير طريقة تطوير البرمجيات؟ شاركونا آراءكم في التعليقات!
كيف تتجاوز نماذج اللغات الضخمة (LLMs) اختبارات القبول البشرية؟ اكتشفوا SWE-IF!
تقدم دراسة جديدة طريقة مبتكرة لتقييم نماذج اللغات الضخمة (LLMs) عبر دمج التفضيلات البشرية في تقييم الكود. تعرفوا على SWE-IF وكيف يمكن أن تعيد تشكيل المستقبل البرمجي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
