في عالم النماذج اللغوية، يعتبر الإخراج الصحيح والمتوافق مع التنسيق أمراً أساسياً لضمان فعالية التعامل مع البيانات. ولكن الدراسة الأخيرة التي تم نشرها في arXiv تكشف عن فجوة مقلقة في موثوقية الإخراج المنظمة للنماذج اللغوية الصغيرة (Small Language Models). استخدمت الدراسة اختبارات رياضية صارمة، مثل GSM8K وMATH، كحقل تجريبي مضبط، حيث كانت الحقائق واضحة جداً والعقدة المتعلقة بالإخراج صارمة (تستخدم تنسيق JSON مع حقول متطلبة).
تم تقييم ثلاثة نماذج بوزن 7-9 مليارات تحت خمس استراتيجيات تحفيز، حيث تم قياس دقة الإخراج - الجمع بين صحة النتائج الرياضية وهيكل JSON الصالح - كأهم معيار.
أظهرت النتائج أن أسلوب التحفيز الساذج (NAIVE prompting) الذي لا يستخدم أي توجيه للنظام، يحقق دقة تصل إلى 85% في مهمات GSM8K، ولكنه يفشل تماماً في تحقيق دقة الإخراج على جميع النماذج والبيانات.
بينما حققت أساليب التحفيز المرجعية (REFERENCE prompting)، التي تعتمد على تنسيق JSON المكتوب يدوياً، نتائج مخيبة للآمال كذلك، حيث حققت دقة إخراج 0% لاثنين من النماذج الأربعة المختبرة. ورغم أن عملية فك قيود الترميز (Constrained Decoding) تضمن الصلاحية النحوية، إلا أنها تضاعف زمن استجابة النظام، مما يؤدي في بعض الحالات إلى تدهور الأداء بشكل ملحوظ.
لتجاوز هذه المحدودية، تم تطوير نظام AloLab، وهو مُحسِّن للتوجيهات النظامية يستفيد من إمكانية الوصول إلى واجهة API للنموذج المستهدف فقط؛ حيث حقق دقة إخراج بين 84-87% في GSM8K و34-40% في MATH عبر خمس تجارب مستقلة لكل نموذج.
تظهر المقارنات أن 29 من 30 مقارنة باستخدام اختبار McNemar ضد أفضل تحفيز ثابت كانت ذات دلالة إحصائية.
لم تتوقف المشكلة عند هذا الحد، بل امتد انعدام الدقة إلى نموذج GPT-4o (OpenAI، 2024) حيث حقق أسلوب التحفيز المرجعي دقة إخراج تبلغ 0% بسبب لف العلامات النمطية بشكل منهجي. لكن أنظمة AloLab حققت نسبة دقة تصل إلى 95.2%.
تثبت الدراسات أن قدرة المساعد الذكي (meta-agent) عامل رئيسي في جودة التحسين، حيث تم استبدال المُحسن Sonnet 4.5 بـClaude 3 Haiku مما أدى إلى تراجع متوسط دقة الإخراج إلى 61.0%.
تُظهر هذه النتائج أهمية التوجه إلى تقنيات جديدة لتحسين دقة المخرجات وضمان الامتثال للصيغ المطلوبة في النماذج اللغوية الصغيرة. إذن، كيف ترى مستقبل تحسين الذكاء الاصطناعي في هذا المجال؟ شاركونا آراءكم في التعليقات.
تحقيق الدقة في النماذج اللغوية الصغيرة: هل تنجح التحسينات في إخراج البيانات المنظمة؟
تظهر دراسة جديدة أن النماذج اللغوية الصغيرة تعاني من عجز في دقة الإخراج المنظم، حيث أشارت النتائج إلى أن أساليب التفاعل الساذجة تؤدي إلى معدلات دقة قد تصل إلى 85% لكنها تفشل تمامًا في انسجام البيانات. تم تطوير نظام AloLab لتحسين موثوقية الإخراج وتحقيق نتائج أفضل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
