في عالم الذكاء الاصطناعي، تُعتبر نماذج الترميز التخميني (Speculative Decoding) إحدى أهم الوسائل لتحسين سرعة الاستنتاج في نماذج اللغات الضخمة (Large Language Models). لكن، هل تساءلتم يومًا عن كيف يمكن أن تؤثر هذه النماذج على جودة النتائج المولدة؟ في دراسة لاحقة قامت بها مجموعة من الباحثين، تم الكشف عن ظاهرة جديدة تُعرف بـ "انحراف الانتباه" (Attention Drift).

هذه الظاهرة تحدث عندما تقوم نماذج الترميز التخميني، مثل موديلات EAGLE3 ورؤوس MTP، بتوليد توكنات (Tokens) متتالية، حيث ينتقل التركيز من المحتوى الأساسي إلى التوكنات التي تم إنشاؤها مؤخرًا. وهذا ما يؤثر سلبًا على دقة النتائج المولدة.

لتحليل هذه الظاهرة، وجد الباحثون أن الطاقة المخفية للنموذج تتزايد مع عمق سلسلة التوليد، مما يثير تساؤلات حول تصميم نماذج الترميز الحالية. للتغلب على هذه المشكلة، اقترحوا تعديلين هيكليين، هما: تطبيق نظام ما بعد التطبيع (Post-norm) على الحالات المخفية للنموذج واستخدام RMSNorm بعد التقاط الحالات المخفية المستهدفة.

هذه التعديلات أظهرت تحسنًا ملحوظًا في الأطوال المقبولة على النماذج الحالية الرائدة، مما يعزز القدرة على تحقيق نتائج دقيقة على مختلف المهام، بما في ذلك المحادثات متعددة الأدوار والبرمجة. مما يعني أنه يمكننا الاعتماد أكثر على مثل هذه النماذج لتحسين كفاءة وجودة تطبيقات الذكاء الاصطناعي في المستقبل.

هذه الاكتشافات تفتح مجالات جديدة لاستكشاف نماذج الذكاء الاصطناعي وتحسينها. ما رأيكم في هذه التطورات العلمية؟ شاركونا في التعليقات!