تواجه نماذج اللغة الكبيرة (LLMs) تحديًا رئيسيًا عند تطبيق تقنيات التكرير في السياسات (OPD)، حيث يتطلب تحقيق كفاءة النظام تنفيذًا غير متزامن، مما قد يتعارض مع الأهداف المثالية. في مقالنا اليوم، نستعرض طريقة f-OPD التي تسعى لمعالجة هذه المشاكل من خلال تقديم إطار عمل مبتكر.

تتمثل الفكرة الرئيسية في تقسيم الفجوة بين الأهداف المدروسة إلى نوعين: انحراف النشر (rollout drift) وانحراف الإشراف (supervision drift). وهذا يسمح لنا بقياس مدى قِدم العينة المدروسة بالنسبة للسياق التعليمي. من خلال تقديم مقياس جديد يُدعى درجة الطزاجة (freshness score)، يمكن للباحثين قياس موثوقية العينة المخزنة بناءً على الهدف المرتبط بالسياسات.

تستخدم طريقة f-OPD هذه الدرجة لضبط تأثير العينات القديمة، مما يسهم في تقليل انحراف السياسة المتراكم الناتج عن التدريب غير المتزامن. ومن خلال تجارب تشمل المهام المنطقية واستخدام الأدوات وتطوير التعليمات البرمجية، أظهرت f-OPD أداءً متفوقًا مكافئًا مع أساليب التدريب المتزامن، بينما احتفظت بمعظم مزايا الأداء السريع للتنفيذ غير المتزامن.

تشكل نتائج هذا البحث خطوة مهمة نحو تحقيق توازن فعال بين الأداء والكفاءة في تقنيات التكرير في السياسات، مما يمهد الطريق لمستقبل أكثر إشراقًا في تطوير الأنظمة الذكية على نطاق واسع.