كيف تتجاوز نماذج اللغات الضخمة (LLMs) اختبارات القبول البشرية؟ اكتشفوا SWE-IF!

Q: ما هو موضوع مقال "كيف تتجاوز نماذج اللغات الضخمة (LLMs) اختبارات القبول البشرية؟ اكتشفوا SWE-IF!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "كيف تتجاوز نماذج اللغات الضخمة (LLMs) اختبارات القبول البشرية؟ اكتشفوا SWE-IF!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في مرور سريع للتطورات التقنية، باتت نماذج اللغات الضخمة (LLMs) تلعب دوراً محورياً في توليد الشيفرات البرمجية، مما يدعو إلى ضرورة مراجعة كيفية تقييم هذه الشيفرات. في هذا السياق، ظهرت فكرة جديدة تتجسد في SWE-IF، أداة مصممة لجعل تقييم الكود متوافقًا مع التفضيلات البشرية.

تهدف SWE-IF إلى تعزيز تجربة المستخدم من خلال تمكين نماذج اللغات الضخمة (LLMs) من إنتاج كود لا يتبع مجرد القواعد الوظيفية، بل أيضاً يكون ملائمًا من الناحية التعبيرية والنظرة الظاهرة. فمفهوم "تقييم الطابع" (vibe check) يذهب أبعد من مجرد الصلاحية الوظيفية، حيث يجب أن يشعر المستخدم أن الشيفرة "صحيحة"، أن المقروئية جيدة، وأن النية محفوظة.

ومع ذلك، يبدو أن طرق التقييم الحالية تركز بشكل مفرط على الأداء الوظيفي، مما يغفل جوانبٍ مهمة تتعلق بالتعليمات غير الوظيفية التي يعتمد عليها المستخدمون يومياً. هنا تأتي أهمية الدراسة، حيث تفترض أن استيعاب التعليمات يعد جزءاً أساسياً من تقييم الكود يتجاوز الصلاحية الوظيفية.

لتقديم تقييمات دقيقة، تم تطوير "VeriCode"، وهو تصنيف يضم 30 تعليمية قابلة للتحقق مع أدوات مخصصة للتأكيد، ثم تم استخدام هذا التصنيف لتحسين مجموعات التقييم المعروفة، لتظهر نتيجة SWE-IF. توصل الباحثون من خلال تجربتهم على 31 نموذجاً من LLMs إلى نتائج مثيرة، حيث أظهرت أن هذه النماذج حتى الأقوى بينها تواجه صعوبة في الامتثال لعدد من التعليمات، ما أدى إلى تراجع في الأداء الوظيفي.

الأهم من ذلك، أن جمع الدرجات الوظيفية وامتثال التعليمات كان الأكثر ارتباطاً بتفضيلات البشر، حيث برزت قدرة التعليمات كعامل تمييز أساس بين نماذج LLMs المختلفة.

هذه الأبحاث المدعومة بالبيانات والأكواد ووسائل التقييم ستكون متاحة لجمهور المطورين والباحثين عبر GitHub. هل تعتقد أن تضمين التفضيلات البشرية في تقييم الكود سيغير طريقة تطوير البرمجيات؟ شاركونا آراءكم في التعليقات!

كيف تتجاوز نماذج اللغات الضخمة (LLMs) اختبارات القبول البشرية؟ اكتشفوا SWE-IF!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

غووس: البديل المجاني لبرمجيات الذكاء الاصطناعي الذي يحطم الأسعار في عالم البرمجة

ثورة جديدة في الذكاء الاصطناعي: Salesforce تطلق Slackbot المتطور لمنافسة Microsoft وGoogle في عالم الأعمال