في عالم الذكاء الاصطناعي المتطور، تم إدخال مفهوم جديد يُعرف بالاستدلال الكامن (Latent Reasoning) إلى نماذج اللغات الضخمة (Large Language Models) بهدف استغلال المعلومات الغنية الموجودة ضمن فضاء مستمر. ولكن، كانت هذه الطرق تواجه تحديًا كبيرًا، حيث انعدمت العشوائية في عملية التقييم مما أدى إلى تقليص القدرة على اكتشاف طرق استدلال متنوعة.
في محاولة لسد هذه الفجوة، تم إدخال عشوائية قابلة للتحكم في عملية الاستدلال، وذلك عن طريق استخدام تقنية Gumbel-Softmax. هذه الخطوة ليست مجرد تحسين، بل تعيد إلى نماذج اللغات الضخمة القدرة الاستكشافية التي كانت تفتقر إليها، وتعزز من توافقها مع التعلم المعزز (Reinforcement Learning).
وبناءً على ذلك، تم اقتراح إطار عمل جديد يُدعى تحسين السياسات الاستدلالية الكامنة (Latent Reasoning Policy Optimization) والمعروف اختصارًا بـ LEPO. يمتاز هذا الإطار بتطبيق التعلم المعزز مباشرة على التمثيلات الكامنة المستمرة. خلال مرحلة التقييم، تحافظ LEPO على العشوائية لتفعيل عمليات اختيار مسارات متنوعة، بينما في مرحلة التحسين، تقوم بإنشاء تقدير تدريجي موحد لكل من التمثيلات الكامنة والرموز المنفصلة.
أظهرت التجارب الشاملة أن LEPO يتفوق بشكل كبير على الأساليب الحالية في التعلم المعزز لكل من الاستدلال المنفصل والكمون، مما يجعلها خطوة فارقة في تحسين قدرة الذكاء الاصطناعي على معالجة المعلومات بكفاءة.
ثورة جديدة في الذكاء الاصطناعي: LEPO لتحسين السياسات الاستدلالية في نماذج اللغات الضخمة
توفر LEPO طريقة مبتكرة لتحسين استدلال نماذج اللغات الضخمة من خلال دمج العشوائية القابلة للتحكم. تعزز هذه التقنية القدرة الاستكشافية للنماذج، وتمهد الطريق لتحسين الأداء في التعلم المعزز.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
