تحسين كفاءة نماذج التفكير من خلال تقنيات التقطير المتعددة السياسات

في عالم الذكاء الاصطناعي، تُعتبر نماذج التفكير اللغوية الكبيرة (Large Language Models - LLMs) محورية لتحقيق أداء قوي من خلال إنتاج مسارات تفكير وسطية. ومع ذلك، فإن استخدام هذه النماذج يتطلب موارد كبيرة ويتسبب في تكاليف عالية عند التنفيذ. إذ لاحظنا أن النماذج الأكبر تُنتج مسارات تفكير أكثر اختصاراً، بينما النماذج الأصغر تميل إلى إنتاج مسارات طويلة ومكررة، مما قد يُشكل تحديًا في التطبيقات الواقعية، حيث تفضل القيود المتعلقة بالذاكرة والوقت والتكلفة النماذج الأصغر.

تقنية جديدة تدعى "التقطير المتعدد السياسات" (Mixed-Policy Distillation - MPD) تم تطويرها للتعامل مع هذه التحديات. هذه التقنية ليست محاولة لإنفاذ قيود طولية صريحة، بل تعتمد على نقل سلوكيات الاستدلال الدقيقة من النماذج الأكبر إلى الأصغر. من خلال تجريب مسارات مُعالجة من النماذج الأكبر، يقوم المعلم (Teacher Model) بإعادة كتابة المسارات إلى مقاطع أكثر اختصارًا، بينما يتم تدريب الطالب (Student Model) على محاذاة تعتمد على تقنيات Kullback-Leibler مع هذه المسارات المُعالجة.

أظهرت التجارب على نموذج Qwen3-1.7B أن تقنية MPD تقلل استهلاك التوكنات بنسبة تصل إلى 27.1%، بينما تحسن الأداء عبر عدة معايير استدلالية، مما يبرز فعالية هذه الطريقة في تعزيز كفاءة النماذج الصغيرة.

نتطلع إلى فهمكم لمدى تأثير هذه التقنية على مستقبل نماذج الذكاء الاصطناعي! ما رأيكم في هذا التطور؟ شاركونا في التعليقات.

تحسين كفاءة نماذج التفكير من خلال تقنيات التقطير المتعددة السياسات

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

OpenAI تكشف عن Daybreak: مبادرة ثورية في الأمن السيبراني تركز على تطبيقات Codex!

أين تكمن موثوقية نماذج الرؤية-اللغة؟ دراسة آلية تكشف خفايا الانتباه والدول المخفية

التوجيه المكاني يتفوق على التوجيه الدلالي: نهج جديد لتحسين دقة استخراج البيانات من الرسوم البيانية