في عصر تكنولوجيا المعلومات، أصبحت نماذج اللغات الضخمة (Large Language Models - LLMs) تُستخدم بشكل متزايد كـ "وكلاء" في اتخاذ القرارات (Decision-Making - DM) في البيئات التفاعلية والديناميكية. ولكن، على الرغم من ذلك، إلا أن هذه النماذج لم تكن مُصممة في الأصل من أجل اتخاذ القرارات، مما يجعلها تواجه تحديات كبيرة في هذا المجال.
تشير الدراسات الأخيرة إلى أن نماذج اللغات الضخمة يمكن أن تعاني حتى في مشاكل اتخاذ القرارات الأساسية عبر الإنترنت، حيث تفشل في تحقيق مستويات منخفضة من الندم (regret) أو الحفاظ على توازن فعّال بين الاستكشاف والاستغلال.
لمعالجة هذه القضايا، تم تقديم تقنية جديدة تُعرف بـ "تحسين الندم التكراري" (Iterative Regret-Minimization Fine-Tuning). تعمل هذه التقنية كإجراء بعد التدريب يُعيد تركيب مسارات اتخاذ القرارات ذات الندم المنخفض إلى النموذج الأساسي بشكل متكرر. عند كل دورة، يقوم النموذج بتوليد مسارات قرار متعددة، ثم يختار أفضل k مسارات ذات أدنى ندم، ويقوم بتحسين نفسه بناءً على تلك المسارات.
على عكس الأساليب السابقة التي كانت تعتمد إما على توليد تسلسلات العمل من خوارزميات معروفة لاتخاذ القرارات أو على قوالب تفكير يدوية الصنع، تعتمد هذه التقنية على مقياس الندم لاستنباط قدرات اتخاذ القرار الخاصة بالنموذج وأسباب تفكيره. هذا الاعتماد على استنتاجات النموذج يتيح تجنب هندسة الإنتاج الصارمة ويقدم إشارات تدريب طبيعية ومرنة.
تظهر النتائج التجريبية أن "تحسين الندم التكراري" يحسن أداء نماذج اللغات الضخمة في اتخاذ القرارات عبر مجموعة متنوعة من النماذج، بدءًا من نماذج Transformers التي تتعامل مع المدخلات والمخرجات العددية، وصولاً إلى نماذج LLMs ذات الوزن المفتوح والنماذج المتقدمة المغلقة مثل GPT-4o mini.
بالإضافة إلى ذلك، يوفر هذا التطبيق نظرة نظرية تُظهر أن نموذج Transformer ذو طبقة واحدة تحت هذا النموذج يمكن أن يعمل كمتعلمين بلا ندم في بيئة مبسطة.
بشكل عام، يقدم تحسين الندم التكراري إطار عمل مبدئي وعام لتعزيز قدرات اتخاذ القرارات في نماذج اللغات الضخمة، مما يعد قفزة نوعية في كيفية تعامل هذه النماذج مع التحديات الديناميكية والتفاعلية.
تحسين أداء نماذج اللغات الضخمة في اتخاذ القرارات: تقنية جديدة لمواجهة التحديات
تقدم تقنية جديدة تُعرف باسم تحسين الندم التكراري (Iterative Regret-Minimization Fine-Tuning)، التي تعزز من قدرات نماذج اللغات الضخمة (LLMs) في اتخاذ القرارات. هذه التقنية تتيح للنماذج تحسين أدائها في بيئات ديناميكية وتفاعلية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
