يعكس الاعتماد المتزايد على نماذج اللغات الضخمة (Large Language Models) في مختلف القطاعات أهمية إنشاء مجموعات بيانات تقييمية قوية تدعم المجالات واللغات المختلفة. إلا أن جمع هذه البيانات يواجه عقبات عدة، مثل مخاوف الخصوصية والقيود التنظيمية، بالإضافة إلى التكاليف الزمنية العالية للتوليد اليدوي.
ومع ذلك، فإن الطرق الحالية للتقييم الآلي غالبًا ما تكون محدودة، حيث تعتمد بشكل كبير على البيانات الموجودة مسبقاً، مما يعيق قابلية التوسع، ويقتصر النشاط على مجال واحد، ويعاني من نقص في الدعم متعدد اللغات.
هنا يأتي دور STELLAR-E، وهو نظام أوتوماتيكي بالكامل مصمم خصيصاً لتوليد مجموعات بيانات اصطناعية (Synthetic Datasets) ذات جودة عالية بأحجام مخصصة، وباستخدام مدخلات بشرية محدودة دون الاعتماد على مجموعات البيانات الحالية. يتكون النظام من مرحلتين رئيسيتين:
1. تعديل إطار عمل TGRT Self-Instruct لإنشاء محرك لمعالجة البيانات الاصطناعية، مما يمكن من توليد مجموعات بيانات اصطناعية ذات تحكم مخصص.
2. تطوير خط أنابيب لتقييم البيانات يتضمن مقاييس إحصائية ومرتكزات تعتمد على نماذج اللغات الضخمة لتقييم ملاءمة مجموعة البيانات الاصطناعية لتقييم التطبيقات المعتمدة على النماذج اللغوية.
تظهر النتائج أن المجموعات الاصطناعية تحقق فرقاً متوسطاً قدره +5.7% في تقييمات نماذج اللغات الضخمة مقارنةً بالمراجع اللغوية الحالية، مما يدل على جودة مماثلة لتقييم شامل لنماذج اللغات الكبيرة والصغيرة. وبالرغم من أن مجموعات البيانات الحقيقية تبقى أكثر تحدياً خصوصاً للنماذج الأصغر، إلا أن هذا العمل يؤسس إطارًا تقييمياً قابلاً للتوسع ومناسبًا للمجالات، مما يدعم التقييم العادل لتطبيقات نماذج اللغات الضخمة.
إن STELLAR-E يمثل بديلاً سريعاً للطرق اليدوية، ويمكن أن يُمكّن من دورات ضمان الجودة الآلية ذات الكفاءة العالية.
STELLAR-E: ثورة جديدة في تقييم تطبيقات نماذج اللغات الضخمة!
تقدم STELLAR-E نظامًا آليًا مبتكرًا لتوليد مجموعات بيانات اصطناعية ذات جودة عالية لتقييم نماذج اللغات الضخمة. يهدف هذا النظام الجديد إلى تحسين عملية التقييم وتسهيل جمع البيانات اللازمة بأقل تكلفة زمنية وموارد بشرية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
