في خطوة مثيرة، انطلقت مجموعة من الباحثين لتدريب نماذج لغوية صغيرة تتراوح بين 0.6 مليار و 2.3 مليار معلمة مؤثرة، حيث قاموا بذلك من خلال خطوط أنابيب تدريب متقدمة من MIT، تتضمن تجارب لاحقة على تدخلات رؤوس الانتباه (attention heads) أثناء الاستدلال. ومع ذلك، وكما هو معتاد في مجال الذكاء الاصطناعي، جاءت النتائج مع بعض المفاجآت.

رغم التقارير الأولية التي أظهرت تحسنًا بنسبة 33.9 نقطة في تطابق الأسئلة (MCAS) و15.3 نقطة في تقييم الأداء البشري (HumanEval) على طلاب نماذج معينة مثل Qwen3-0.6B، إلا أن فحصًا دقيقًا لاحق أظهر أن كلا الرقمين كانا مضللين. فقد تبين أن التحسن في تقييم الأداء البشري نتج عن أداة مصطنعة، بينما اختفى تحسن تطابق الأسئلة تمامًا عند تقييم المعايير بشكل متطابق.

النتائج السلبية زادت من أهمية التجارب، حيث قاد البحث إلى ثلاثة تجارب مختلفة طرحت أسئلة جديدة: هل يمكننا استخدام تقنيات مثل SFT/DPO LoRA أو التخفيف عبر رؤوس الانتباه لتحسين السلوكيات؟ لكن المؤسف أن هذه الطرق لم تؤدِ إلى أي تحسينات واضحة دون التأثير على جودة المحتوى. وتوسعت النتائج السلبية لتشمل خمسة نماذج مختلفة، جميعها أظهرت عدم نجاح هذه التقنيات.

إحدى الاكتشافات غير المتوقعة هي أن نموذج "جما 4 E2B" أظهر انفصالًا شبه كامل بين الثقة والصحة، مما يجعله قادرًا على الإشارة إلى المعلومات بشكل متكرر بغض النظر عن صحتها. هذه الديناميكية تثير تساؤلات جديدة حول كيفية بناء نماذج أكثر موثوقية وفعالية.

إن مغامرات هذه الأبحاث تسلط الضوء على التحديات المستمرة التي يواجهها مجتمع الذكاء الاصطناعي. فهل سنشهد قفزات نوعية جديدة في هذا المجال؟ كل هذه الأسئلة ما تزال مفتوحة للبحث والتجريب.