أصبح التعلم المعزز غير المتصل (Offline Reinforcement Learning) جزءًا محوريًا في مجال الذكاء الاصطناعي، حيث تحتاج النماذج إلى اكتساب مهاراتها من بيانات سابقة دون الحاجة إلى تفاعلات حقيقية. ومع تطور هذا المجال، برزت تقنيات مثل Q-learning المبنية على الانتشار (Diffusion-based Q-learning) كوسيلة فعّالة، لكن كانت تواجه تحديات مرتبطة بالتعقيدات الحسابية.

آلية عمل Q-learning المعتمد على الانتشار ترتكز على دنوّ متعدد الخطوات، مما يجعل كل من التدريب والتطبيق مكلفين من الناحية الحوسبية وعُرضة للأخطاء. في خطوات حديثة، حاولت الابتكارات تسريع Q-learning من خلال تقديم شبكات مساعدة، أو طرق تخفيف السياسة، أو التدريب على مراحل متعددة. ولكن غالبًا ما تؤدي هذه الطرق إلى تفريط في البساطة أو الاستقرار أو الأداء.

إلى هنا جاء ابتكار Bootstrapped Flow Q-Learning (BFQ)، وهو إطار عمل جديد يسهل توليد الأفعال في خطوة واحدة بدقة، سواء أثناء التدريب أو في فترة الاستنتاج، دون اللجوء إلى الشبكات المساعدة أو إجراءات التخفيف. يعتمد BFQ على رؤية تقسيم وتغلب على متجه الإزاحة على طول مسار التدفق: يبدأ بتعلم إزاحات قصيرة المدى التي يمكن تقديرها بدقة من سرعة التدفق، ثم يقوم بدعم هذه العناصر مباشرة لتعلم خريطة الضوضاء إلى الأفعال في خطوة واحدة.

هذا النهج يُلغي الحاجة إلى دنوّ متعدد الخطوات، مما يجعل عملية التعلم أسرع وأبسط وأكثر موثوقية. تشير التقييمات الواسعة النطاق من D4RL إلى أن BFQ يحسن الأداء مع تقليل التكلفة الحوسبية بشكل كبير مقارنة بأساليب الدنو متعددة الخطوات، مما يثبت أن توليد الأفعال في خطوة واحدة كافٍ لتحقيق أداء عالٍ في التعلم المعزز غير المتصل.