في خطوات جديدة نحو دمج الذكاء الاصطناعي في مجالات التعلم الآلي، تمثل نماذج اللغات الضخمة (Large Language Models - LLMs) قفزة نوعية في قدرتنا على تحسين نتائج التعلم المعزز (Reinforcement Learning - RL). إن السؤال المحوري هو: متى يمكن لهذه النماذج أن تحل محل الخوارزميات التقليدية في مهام التعلم المعزز؟
تقدم دراسة حديثة مفهوم "تحسين السياسة المعتمد على التوجيه" (Prompted Policy Optimization - PromptPO)، وهي تقنية تفاعلية تستخدم أوصافًا بلغة بايثون لمساحة الحالة، ومساحة العمل، ودالة المكافأة. تقوم هذه الطريقة بتوليد وتعديل السياسات القابلة للتنفيذ بناءً على الملاحظات من البيئة.
التجارب التي أُجريت على مجموعة متنوعة من المهام، بما في ذلك بيئات استكشاف صعبة ومهام روبوتية في "ميتات ورلد" (Meta-World)، بالإضافة إلى بعض مشكلات التحكم في العالم الحقيقي، أظهرت أن PromptPO يمكن أن يحقق أداءً يتساوى أو يتفوق على الأساليب التقليدية في التعلم المعزز، بينما يحتاج إلى عدد أقل بكثير من التفاعلات مع البيئة.
عندما تقوم نماذج اللغات الضخمة بالاستفادة من المعرفة السابقة حول البيئة أو استراتيجيات التحسين، يمكنها إنتاج سياسات تتراوح بين أدوات تحكم متوازنة أو خطط قائمة على القواعد، إلى سياسات تستخدم خوارزميات التخطيط مثل "قيمة التكرار" (Value Iteration).
ومع ذلك، يعتبر الأداء في مجالات "موجوكو" (MuJoCo) تقليديًا أقل من المعايير المعتادة، مما يشير إلى حدود استخدام LLMs كأداة لتحسين السياسة في الأنظمة التي تتطلب تحكمًا دقيقًا.
تقدم هذه الدراسة إنجازًا مثيرًا في تطبيقات التعلم المعزز. ما رأيكم في هذه التحولات الجديدة في الذكاء الاصطناعي؟ شاركونا في التعليقات.
متى تصبح نماذج اللغات الضخمة مُحسّنات سياسة فعالة لمهام التعلم المعزز؟
تقدم الدراسة الجديدة فكرة مبتكرة لاستخدام نماذج اللغات الضخمة (LLMs) كأداة لتحسين السياسات في مهام التعلم المعزز (RL). هذه الطريقة قد توفر أداءً يفوق الأساليب التقليدية مع تقليل عدد التفاعلات مع البيئة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
