في عالم الذكاء الاصطناعي، تتزايد التحديات المتعلقة بتطوير نماذج تعليمية أكثر كفاءة. في هذا السياق، تم إجراء دراسة مثيرة لتحليل استنساخ المعرفة من نموذج تفكير كبير يُعرف بـ (DeepSeek-R1) إلى نموذج طلابي مدمج (Qwen2.5-7B). استندت الدراسة إلى مشكلات تاريخية من مسابقة جون أوبراين الرياضية التي تُعقد في جامعة شمال كنتاكي بين عامي 2011 و2025.

استخدم الباحثون إطار عمل مزدوج (dual-agent framework) لبناء مجموعة بيانات تدريب معتمدة على مفهوم سلسلة التفكير (Chain-of-Thought - CoT). كان النموذج الطلابي يعتمد على تقنية التكييف المنخفض الرتبة (Low-Rank Adaptation - LoRA) ويتم تشغيله على عتاد Apple Silicon باستخدام إطار MLX.

أظهرت النتائج أن نموذج Qwen2.5-7B قد حقق دقة بلغت 64.67% في حل مشاكل المسابقة، بينما حقق النموذج المعلم (DeepSeek-R1) دقة مذهلة بلغت 91.40%. خلال تجربة تدريب أولية استمرت 1000 جولة، وُجد أن هناك فرطًا في التكيف (overfitting) حيث بلغت خسارة التحقق أدنى مستوياتها عند الجولة 200 قبل أن ترتفع مرة أخرى.

لكي يتم تقييم استقرار النتائج، تم إجراء خمسة تدريبات مستقلة، كل واحدة محددة بـ 200 جولة مع استخدام بذور عشوائية مختلفة. أظهرت النتائج أن النموذج الطلابي المعدل استطاع تحقيق دقة متوسطة بلغت 69.43% مع انحراف معياري 0.17% على مجموعة بيانات المسابقة، مما يشير إلى تحسن بنسبة 4.76 نقطة مئوية مقارنة بالنموذج الأساسي. كما تم دراسة كيفية تأثير طول الإجابات على جودة النتائج، حيث لوحظ أن الدقة تنخفض بصفة مستمرة من 69.43% على مستوى R1 (بمتوسط 220 كلمة) إلى 41.9% على مستوى R6 (بمتوسط 31.2 كلمة).

تظهر هذه النتائج بوضوح أن استنساخ المعرفة من نماذج التفكير الكبيرة يحسن من كفاءة النماذج الطلابية المدمجة، كما أن طول الإجابات يشكل عاملاً حاسمًا في نوعية النتائج الرياضية. هل تعتقد أن مثل هذه التقنيات ستغير مستقبل التعليم؟ شاركونا آراءكم في التعليقات.