في عالم الروبوتات وتعلم الآلة، كانت الحاجة إلى جمع بيانات عالية الجودة تمثل تحديًا دائمًا. تعتمد تقنيات تقليد السلوك (Behavior Cloning) على كميات ضخمة من البيانات المستندة إلى تجارب حقيقية، لكن الحصول على هذه البيانات في البيئات الواقعية يعد مكلفًا وصعبًا. ولكن خبراء الذكاء الاصطناعي قدموا حلاً مبتكرًا من خلال إطلاق إطار العمل الجديد ExpertGen.

تتمثل فكرة هذا النظام في أتمتة عملية تعلم سياسات الخبراء عبر المحاكاة، مما يسمح بنقل المعرفة المكتسبة إلى الواقع بشكل أكثر سهولة. يتم استخدام سياسة تشويش مدربة مسبقًا تعتمد على تجارب غير مثالية، قد تكون مستمدة من نماذج لغوية ضخمة (Large Language Models) أو سلوك إنساني، لتشكيل قاعدة معرفية صلبة.

بعد ذلك، يتم تطبيق التعلم المعزز (Reinforcement Learning) لتوجيه هذه القاعدة نحو تحقيق نجاح عالٍ في المهام المختلفة، من خلال تحسين الضوضاء الأولية لنموذج التشويش مع الحفاظ على السياسة الأصلية ثابتة. هذه الطريقة تؤمن探索ًا آمنًا، تحاكي التصرفات البشرية، كما أنها تتيح التعلم الفعال حتى مع وجود مكافآت نادرة.

تُظهر التقييمات التجريبية على مهام التلاعب الصعبة أن ExpertGen ينتج سياسات خبراء ذات جودة عالية من دون الحاجة إلى تصميم مكافآت معقدة. في مختبرات التجميع الصناعي، حققت هذه التقنية معدل نجاح إجمالي قدره 90.5%، بينما حققت 85% على مهام التلاعب الطويلة الأمد، مما يتفوق على جميع الأساليب المستخدمة كمعايير.

تُظهر السياسات الناتجة تحكمًا دقيقًا وقوة تحمل عبر مجموعة متنوعة من الإعدادات الأولية وحالات الفشل. وللتأكد من فعالية نقل المعرفة من المحاكاة إلى الواقع، تم تصفية هذه السياسات المستندة إلى الحالة وتطبيقها بنجاح على الأجهزة الروبوتية الحقيقية.

إن ExpertGen ليس مجرد ابتكار تقني بل يمثل خطوة هائلة نحو تحقيق التكامل بين العالم الافتراضي والواقعي، ما يفتح الأبواب أمام إمكانيات غير محدودة في مجال الذكاء الاصطناعي والروبوتات.