تظهر نماذج اللغات الضخمة (Large Language Models) قدرات استنتاجية رائعة في مجالات متعددة، بدءًا من برمجة الخوارزميات وصولاً إلى حل المشكلات الرياضية. مؤخرًا، نجحت مجموعة من الأساليب الجديدة في تعزيز هذه القدرات من خلال توسيع قاعدة البيانات واعتماد أساليب تدريب متعددة المراحل تربط بين التعلم المعزز (Reinforcement Learning) والتوجيه الخاضع للإشراف (Supervised Fine-Tuning).
ومع ذلك، فإن بعض الطرق تقترح أن مجموعة بيانات صغيرة ولكن مستهدفة يمكن أن تعزز التفكير فقط من خلال عملية التقطير، إلا أن قوانين توسيع التفكير (Reasoning Scaling Laws) لا تزال قيد التطوير، مما يزيد من تكاليف الحوسبة.
لذلك، نقدم إطار عمل لتقطير البيانات بشكل فعّال (Data-Efficient Distillation Framework - DED) الذي يهتم بتحسين حدود Pareto لعملية التقطير الاستنتاجي. يستلهم هذا الإطار من أساليب التعلم النشط واستراتيجيات الإطلاق المتنوعة المستخدمة في التعلم المعزز. وتتجسد الفكرة الرئيسية لهذا الإطار في ثلاثة محاور رئيسية:
1. **اختيار النموذج المعلم**: نحدد أن درجات المعايير فقط لا تحدد نموذج المعلم الفعّال. من خلال مراجعات شاملة لأفضل نماذج التفكير المنطقي، طوّرنا طريقة لاختيار النموذج الأمثل.
2. **تحقيق توازن**: رغم أن تكبير عملية التقطير يمكن أن يعزز التفكير، إلا أنه غالبًا ما يؤدي إلى تدهور الأداء خارج النطاق (Out-of-Domain). يحقق الموضع الصغير الذي تم تنقيحه بعناية توازنًا بين القدرات داخل النطاق وخارجه.
3. **تعزيز مهارات التفكير**: تشجع المسارات الاستنتاجية المتنوعة النموذج التلاميذي على تطوير مهارات استنتاجية قوية.
تمت عملية تقييم هذه الطريقة من خلال اختبارات على التفكير الرياضي (AIME 2024/2025، MATH-500) وتوليد الشيفرات البرمجية (LiveCodeBench)، محققةً نتائج رائدة باستخدام 0.8k مثال فقط تمت تنقيحه بعناية، متجاوزة الحاجة إلى التوسع الواسع.
تظهر تحليلاتنا المنهجية أن DED تفوق الأساليب الحالية من خلال اعتبار عوامل تتجاوز سطحية الصعوبة، طول الرموز، أو قدرة النموذج المعلم. يقدم هذا العمل مسارًا عمليًا وفعّالًا نحو تحسين التفكير المتقدم مع الحفاظ على القدرات العامة.
إطار عمل جديد لتحقيق فعالية البيانات في استنتاج الذكاء الاصطناعي: خطوة نحو تحسين التفكير المنطقي!
طرحت دراسة جديدة إطار عمل فعّال لتقطير المعلومات يمكنه تحسين قدرات التفكير المنطقي في نماذج اللغات الضخمة بتكلفة بيانات منخفضة. يتمحور هذا الإطار حول تحسين الأداء دون الحاجة إلى قواعد بيانات ضخمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
