في عالم الذكاء الاصطناعي، تتجه الأنظار نحو التطورات التي تحسن من كفاءة تعلم الآلة، وواحدة من هذه التطورات المثيرة هي دراسة جديدة تقدمها مجموعة من الباحثين. تتناول الدراسة مفهوم نموذج اتخاذ القرار (Decision Transformer) الذي يتم فيه صياغة التعلم المعزز غير المتصل كعملية نمذجة تسلسلية تعتمد على التوقع الذاتي.

سلط الضوء في الدراسة على نقطة ضعف في نموذج اتخاذ القرار الذي يعتمد على قيمة "عودة إلى الهدف" (Return-to-Go - RTG) التي تعتبر عددًا مفردًا يختصر المكافآت المستقبلية، مما يؤدي إلى فقدان كمية كبيرة من المعلومات. رغم أنها تستهلك نفس ميزانية الحوسبة لكل توكن، إلا أن RTG يحتوي على معلومات أقل بكثير مقارنة بالمتجهات التقليدية للحالة أو العمل.

ويواجه استخدام RTG كثافة حسابية غير ضرورية حيث أن تكلفة التركيز الذاتي (Self-Attention) في نموذج Transformers تنمو بطريقة تربيعية مع طول التسلسل. وبالتالي، أدت هذه العوامل إلى اقتراح نموذج جديد يُعرف بـ SlimDT، والذي يقوم بإزالة RTG من التسلسل التلقائي. بدلاً من ذلك، تُحقن معلومات RTG في تمثيلات الحالة قبل خطوة النمذجة التسلسلية، مما يمكّن Transformer من معالجة تسلسل مدمج من الحالة والعمل فقط، ويقلل من طول التسلسل بثلث، مما يُحسن بشكل مباشر من كفاءة الاستنتاج.

عند الاختبار على معيار D4RL، تفوّق SlimDT على النموذج القياسي (Standard DT) في مهام متعددة، حيث حقق أداءً يُعادل الأساليب الحديثة الحالية المعتمدة. وهذا يدل على أن فصل الإشارات غير الكثيفة عن التسلسل الغني بالمعلومات يؤدي إلى مكاسب حسابية وأداء أعلى في المهام.

يتضح أن الابتكار في طرق النمذجة يمكن أن يؤدي إلى تحسينات كبيرة في كيفية استخدام الذكاء الاصطناعي في العديد من التطبيقات العملية.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات!