في خطوة رائدة تعكس التطور المستمر في أبحاث الذكاء الاصطناعي، تم الكشف عن مجموعة بيانات جديدة تُعرف باسم OpenClassGen، وهي واحدة من أكبر مجموعات بيانات توليد الكود التي تم إنشاؤها للتعامل مع متطلبات التدريب الحديثة. تضم هذه المجموعة الضخمة 324,843 فئة من فئات بايثون (Python)، تم استخراجها من حوالي 2,970 مشروعًا مفتوح المصدر.

يفتقر الكثير من مجموعات البيانات الحالية في هذا المجال إلى الحجم أو الجودة المطلوبة، حيث إن بعض البيانات المتوفرة غير كافية لدعم البحث المتقدم. بينما كانت مجموعة البيانات ClAddEval تضم 100 فئة فقط، ومجموعة RealClassEval تحمل 400 فئة، تأتي OpenClassGen لتقدم مجموعة شاملة وكبيرة تدعم تقييمًا قويًا وتحليلًا تجريبيًا فعالًا.

كل إدخال في OpenClassGen يحتوي على فئة مكتوبة بواسطة إنسان تترافق مع هيكلها المناسب، الذي يتضمن تواقيع الفئات (class signatures) والطرائق (method signatures) مع التعليقات التوضيحية المصاحبة. كما تمت إضافة 27 مقياسًا ثابتًا للكود تغطي خصائص مثل التعقيد (complexity) والتشبيك (coupling) والترابط (cohesion) وميزات الوراثة (inheritance).

عندما تم اختبار مجموعة البيانات هذه على ثلاثة نماذج من نماذج اللغات الضخمة (LLMs) وهي GPT-o4-mini وClaude-4-Sonnet وQwen-3-Coder، لوحظ وجود اختلافات ملحوظة في الأداء. إذ أظهرت النتائج تباينًا في الجودة، حيث حققت النماذج أداءً متباينًا مع معدل دقة وظيفية يصل إلى 33%. تُشير هذه النتائج إلى أن OpenClassGen يمكن أن تسهم في تسريع فهم قدرات نماذج الذكاء الاصطناعي والتفريق بينها.

وإلى جانب تقديم إطار عمل لتحسين طرق التوليد، تدعم مجموعة بيانات OpenClassGen تطبيقات متنوعة مثل تحسين النماذج وعمليات الاسترجاع المعززة والتوجيه على أساس صعوبة المهام. يمكن لجمهور المهتمين الوصول إلى المجموعة الكاملة وسكربتات التنظيم المتاحة للجمهور عبر الرابط: [https://zenodo.org/records/18409150].

ما رأيكم في هذه الخطوة الثورية في مجال الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.