تعتبر عمليات تحسين التعليمات (Prompt Optimization) في أنظمة الذكاء الاصطناعي المركبة (Compound AI Systems) واحدة من المواضيع الحاسمة في الأبحاث الحالية، حيث أظهرت دراسة مؤخراً أن نتائج هذه العمليات قد تكون مشابهة لرمي النرد. فمتوسط الأداء خلال 72 اختبارًا على نموذج Claude Haiku 4.5، الذي يتضمن ستة طرق مختلفة و 4 مهام يتم تكرارها ثلاث مرات، أظهر أن 49% من العمليات كانت أقل من الأداء بدون تحسين (Zero-shot). وبدوره، كان معدل الفشل على منصة Amazon Nova Lite أعلى بشكل ملحوظ.
ومع ذلك، كانت هناك حالة واحدة تظهر فيها جميع الطرق الست تحسنًا ملحوظًا مقارنةً بالأداء الأساسي، حيث سجلت زيادة تصل إلى 6.8 نقاط. فما الذي يميز النجاح عن الفشل؟
للإجابة على هذا السؤال، أجرى الباحثون 18,000 تقييم باستخدام شبكة بحثية و 144 عملية تحسين، مختبرين فرضيتين أساسيتين وراء أدوات تحسين شامل مثل TextGrad و DSPy. الافتراضات كانت كالتالي: (أ) تحتاج التعليمات بين الوكلاء إلى تفاعل، مما يتطلب تحسينًا مشتركًا بدلاً من المستقل، و (ب) هل يستحق تحسين كل تعليمات على حدة؟
أثبتت النتائج أن تأثيرات التفاعل لم تكن ذات دلالة إحصائية، وأن تحسين التعليمات يساعد فقط عندما تتوافر بنية قابلة للاستغلال في المخرجات. وأوضح الباحثون أن عملية ضبط التعليمات تضغط العبارات المدخلة في توزيع مخرجات ضيق، مما يلغي حساسيات العبارات التي يفترضها التحسين المشترك.
لتسهيل الأمر، قام الباحثون بتقديم اختبارين تشخيصيين: الأول هو اختبار ANOVA بتكلفة 80 دولارًا، لتقييم اقتران الوكلاء، والآخر هو اختبار استباقي لمدة 10 دقائق يتوقع هل يستحق التحسين، مما يحول الرهان العشوائي إلى قرار مدروس.
تحسين التعليمات: هل هو مجرد رهان؟ اكتشاف مفتاح النجاح في أنظمة الذكاء الاصطناعي المركبة
تشير الأبحاث الجديدة إلى أن تحسين التعليمات في أنظمة الذكاء الاصطناعي المركبة قد يكون عشوائيًا كما يرمي النرد. ومع ذلك، تظهر بعض المهام تحسنًا ملحوظًا يصل إلى 6.8 نقاط. ما السر وراء ذلك؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
