تتمتع نماذج اللغات الضخمة (LLMs) بقدرات مذهلة في إنجاز المهام المعقدة، إلا أن تعقيدها العالي يعيق استخدامها في العالم الحقيقي بسبب متطلبات الحوسبة الضخمة. لذا، يسعى العلماء إلى إيجاد حلول للتغلب على هذه العقبة من خلال تقنيات مثل تقطير التفسير (Reasoning Distillation) التي تعمل على نقل قدرات التفكير من نماذج معلمة قوية إلى نماذج أصغر وأكثر كفاءة.

ومع ذلك، تواجه هذه الاستراتيجيات الحالية معضلة حقيقية تتمثل في الانحياز الحاد للتعرض المزدوج. تعتمد تقنيات التقطير التقليدية بشكل صارم على المسارات الذهبية التي تولدها النماذج المعلمة، مما يؤدي إلى انحياز بسبب التناقض بين توزيعات التدريب وسياقات الاستنتاج التي تولدها النماذج الطالبية. وهذا التباين يؤدي بالتالي إلى تسلسل أخطاء معقدة خلال عمليات التفكير الطويلة.

للتغلب على هذا التحدي، ظهرت تقنية جديدة تُعرف بإسم مراقبة المسارات وعودة إلى النقطة الآمنة (MOTAB)، والتي توفر إطاراً حديثاً للتقطير. تعتمد هذه التقنية على مراقبة ديناميكية للتوليد الطالبين مقابل حدود سلامة متطورة. عند تجاوز حدود الأمان هذه، تعود MOTAB إلى الحالة الآمنة الأخيرة وتجري تدخلات المعلم لتصحيح المسار المائل.

تتحمل هذه الطريقة الأخطاء البسيطة من الطلّاب لتخفيف الانحياز، بينما تمنع السياقات الفرعية غير المثلى من التغلب على الانحياز المعكوس. أظهرت تجربتان مكثفتان على مجموعات بيانات LIMO-v2 و AceReason أن MOTAB تساهم بشكل فعال في تخفيف انحياز التعرض المزدوج، محققة تحسناً متوسطاً في الأداء قدره حوالي 3% في المهام المذكورة.

إن الجهود المستمرة في هذا المجال تعكس التزام المجتمع العلمي بتحسين تقنيات الذكاء الاصطناعي وتقديم حلول مبتكرة للتحديات الراهنة. فما رأيكم في هذه التقنية الجديدة؟ شاركونا أفكاركم في التعليقات!