في عصر الذكاء الاصطناعي، أصبحت النماذج اللغوية الضخمة (LLMs) جزءاً لا يتجزأ من تطوير البرمجيات، حيث تتمتع بقدرات استثنائية في توليد وتحليل الأكواد. ومع ذلك، تظل العديد من هذه النماذج تعتمد على الحوسبة السحابية أو على أجهزة متخصصة، مما يحد من إمكانية استخدامها في البيئات الحساسة للخصوصية أو التي تعاني من نقص الموارد.
في هذا السياق، جاء البحث الجديد الذي يقيّم أداء نماذج LLaMA 3.2 وMistral عند استخدامها محلياً لرصد الأخطاء في كود بايثون، وذلك باستخدام معيار BugsInPy. تمت دراسة 349 خطأً عبر 17 مشروعًا، حيث تم تطبيق أسلوب التوجيه بدون تدريب (zero-shot prompting) على مستوى الدوال، وتقييم النتائج من خلال إطار عمل آلي يعتمد على الكلمات الرئيسية.
أظهرت الدراسات أن النماذج المنفذة محلياً حققت دقة تتراوح بين 43% و45%، بينما أنتجت نسبة كبيرة من الردود نصف الصحيحة، حيث تمكنت هذه النماذج من تحديد المناطق المليئة بالمشكلات في الأكواد، لكنها لم تكن دائماً دقيقة في تقديم الحلول المحددة. كما بينت النتائج أن الأداء يتفاوت بشكل كبير من مشروع إلى آخر، مما يبرز أهمية خصائص قاعدة الكود في هذا الصدد.
تشير النتائج إلى أن النماذج المحلية تستطيع كشف نسبة معقولة من الأخطاء، على الرغم من أن التحديد الدقيق يبقى تحدياً، خصوصاً في التعامل مع الأخطاء المعقدة والمرتبطة بالسياق في سيناريوهات التنمية الواقعية. هذه الدراسة تفتح أمامنا أبواباً جديدة في عالم الذكاء الاصطناعي، حيث يمكن استخدام هذه النماذج لتسريع اكتشاف الأخطاء وتحسين دقة الكود.
لمن يهمه الأمر، هل برأيك ستغير هذه النماذج المحلية من طريقة تطوير البرمجيات؟ شاركونا آرائكم في التعليقات!
تقييم تجريبي للنماذج اللغوية المحلية: رصد الأخطاء في كود بايثون بدقة جديدة!
تم تقييم أداء نماذج لغوية محلية مثل LLaMA 3.2 وMistral لرصد الأخطاء في كود بايثون، حيث أظهرت النتائج دقة تتراوح بين 43% و45%. يكشف البحث عن أهمية خصائص قاعدة الكود والتحديات في تحديد الحلول بدقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
