في العصر الحديث، تتزايد استخدامات النماذج اللغوية الكبيرة (Large Language Models - LLMs) في توليد المخرجات القابلة للتنفيذ، مثل كائنات JSON ونداءات واجهة برمجة التطبيقات (API). ولكن تكمن المشكلة الرئيسية في أن خطأ نحوي بسيط يمكن أن يجعل هذه المخرجات غير صالحة للاستخدام. وللحد من هذه المشكلة، تعتمد تقنيات التشفير المقيد (Constrained Decoding) على فرض صحة النتائج عبر استبدال الرموز بطريقة مدروسة. بالرغم من ذلك، قد تتعرض هذه العمليات للتشويه عندما يُعطي النموذج احتمالات منخفضة للامتدادات الصحيحة، مما يدفع النماذج نحو مسارات صحيحة محليًا ولكنها غير صحيحة دلاليًا.
لذا، قدم الباحثون تقنية جديدة تُسمى "التشفير المقيد بالشروط الأولية" (Draft-Conditioned Constrained Decoding - DCCD) التي تعتمد على إجراء استدلال بسيط من مرحلتين دون الحاجة للتدريب. الفكرة الرئيسية هي فصل التخطيط الدلالي عن الفرض الهيكلي؛ حيث يتم أولاً إنشاء مسودة غير مقيدة، ثم يتم تطبيق التشفير المقيد بناءً على هذه المسودة لضمان الصحة.
وعند تحليل تقنية DCCD من منظور الإسقاط KL (KL-projection)، لوحظ أن هذا الأسلوب يزيد من الكتل الممكنة ويقلل من الضرائب المترتبة على القيود الصارمة، مع خيار اختيار أفضل مسودة من بين K مسودات. النتائج عبر معيار التReasoning الهيكلي تُظهر تحسنًا كبيرًا في دقة النتائج، حيث تم الوصول إلى زيادة تصل إلى 24 نقطة مئوية مقارنة بالتشفير المقيد التقليدي. مثلًا، حقق نموذج بحجم 1 مليار على معايير GSM8K دقة تصل إلى 39% مقارنة بـ 15.2% في النماذج السابقة.
الأهم من ذلك، تمكّن الأزواج الأصغر من النماذج من تجاوز أو مطابقة القواعد الكبيرة، مما يحقق مكاسب كبيرة في كفاءة المعلمات. هذه التقنية الجديدة تمثل خطوة هامة نحو تحسين العملية الإبداعية للنماذج اللغوية الكبيرة وتطوير مخرجاتها.
تكلفة غير مرئية: تقنية جديدة لتحسين دقة النماذج اللغوية الكبيرة في التوليد الهيكلي!
تقدم دراسة جديدة تقنية مبتكرة تحت اسم "التشفير المقيد بالشروط الأولية" لتحسين نتائج النماذج اللغوية الكبيرة. هذه الطريقة تُظهر تحسينات كبيرة في الدقة وتقلل من الأخطاء الهيكلية المحتملة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
