ثورة في الذكاء الاصطناعي: بنوك المهارات وقرارات نماذج اللغة الكبيرة تُغير قواعد اللعبة!
تسعى تقنية COSPLAY الجديدة إلى تحسين قرارات نماذج اللغة الكبيرة (LLMs) في البيئات التفاعلية من خلال الاستفادة من بنوك المهارات المدروسة. النتائج تظهر تحسنًا ملحوظًا في الأداء مقارنةً بالنماذج السابقة.
في عالم الذكاء الاصطناعي (AI)، تعتبر البيئات التفاعلية ذات الأفق الطويل اختبارًا مثيرًا لتقييم قدرات وكيل الذكاء الاصطناعي على استخدام المهارات. تعتمد هذه البيئات على التفكير المتعدد الخطوات، وسلاسل المهارات عبر العديد من المراحل الزمنية، واتخاذ قرارات قوية تحت مكافآت مؤجلة ورؤية جزئية.
تظهر الألعاب كمجال مثالي لاختبار استخدام وكيل الذكاء الاصطناعي للمهارات، لكن التحديات قائمة، خصوصًا عندما يتعلق الأمر بنماذج اللغة الكبيرة (LLMs) التي تعاني من نقص في الآليات اللازمة للاحتفاظ وإعادة استخدام المهارات الهيكلية عبر الحلقات. هنا تأتي تقنية COSPLAY، إطار تطوري مذهل حيث يقوم وكيل اتخاذ القرار بالاعتماد على استرجاع المهارات من بنك المهارات القابل للتعلم، مما يدعم اتخاذ الإجراءات.
تعمل تقنية COSPLAY على تعزيز كل من وكيل اتخاذ القرار ليتعلم كيفية استرجاع المهارات وتوليد الأفعال بشكل أفضل، بينما يقوم وكيل إدارة المهارات باكتشاف المهارات القابلة لإعادة الاستخدام من التجارب غير المصنفة للوكيل لتشكيل بنك المهارات.
أثبتت التجارب التي أجريت عبر ست بيئات ألعاب أن COSPLAY، باستخدام نموذج أساسي بحجم 8 مليارات، يسجل تحسينًا في متوسط المكافآت بنسبة تزيد عن 25.1% مقارنة بأربع نماذج LLM رائدة، مع الحفاظ على تنافسية عالية في ألعاب التفكير الاجتماعي المتعددة اللاعبين.
تعد هذه النتائج علامة فارقة في مجال الذكاء الاصطناعي، حيث تُظهر أن الابتكارات مثل COSPLAY قد تكون الحلول التي تحتاجها نماذج اللغة الكبيرة لتحسين أدائها وتحقيق نتائج مثمرة في البيئات التفاعلية.
تظهر الألعاب كمجال مثالي لاختبار استخدام وكيل الذكاء الاصطناعي للمهارات، لكن التحديات قائمة، خصوصًا عندما يتعلق الأمر بنماذج اللغة الكبيرة (LLMs) التي تعاني من نقص في الآليات اللازمة للاحتفاظ وإعادة استخدام المهارات الهيكلية عبر الحلقات. هنا تأتي تقنية COSPLAY، إطار تطوري مذهل حيث يقوم وكيل اتخاذ القرار بالاعتماد على استرجاع المهارات من بنك المهارات القابل للتعلم، مما يدعم اتخاذ الإجراءات.
تعمل تقنية COSPLAY على تعزيز كل من وكيل اتخاذ القرار ليتعلم كيفية استرجاع المهارات وتوليد الأفعال بشكل أفضل، بينما يقوم وكيل إدارة المهارات باكتشاف المهارات القابلة لإعادة الاستخدام من التجارب غير المصنفة للوكيل لتشكيل بنك المهارات.
أثبتت التجارب التي أجريت عبر ست بيئات ألعاب أن COSPLAY، باستخدام نموذج أساسي بحجم 8 مليارات، يسجل تحسينًا في متوسط المكافآت بنسبة تزيد عن 25.1% مقارنة بأربع نماذج LLM رائدة، مع الحفاظ على تنافسية عالية في ألعاب التفكير الاجتماعي المتعددة اللاعبين.
تعد هذه النتائج علامة فارقة في مجال الذكاء الاصطناعي، حيث تُظهر أن الابتكارات مثل COSPLAY قد تكون الحلول التي تحتاجها نماذج اللغة الكبيرة لتحسين أدائها وتحقيق نتائج مثمرة في البيئات التفاعلية.
📰 أخبار ذات صلة
أبحاث
ثورة جديدة في الذكاء الاصطناعي: جوجل ديب مايند تقدم DiLoCo لفك تشفير تحديات التدريب!
مارك تيك بوستمنذ 6 ساعة
أبحاث
نحو غدٍ عسكري ذكي: تصميم نظام آلي لتوليد خطط العمل باستخدام الذكاء الاصطناعي
أركايف للذكاءمنذ 6 ساعة
أبحاث
تجاوز فخ الاتفاق: إشارات الدفاع لتقييم الذكاء الاصطناعي القائم على القوانين
أركايف للذكاءمنذ 6 ساعة
