في مجال تعلم التعزيز (Reinforcement Learning) التقليدي، كانت جميع الوكلاء المثاليين المعتمدين على النماذج، مثل AIXI، يقومون بالحفاظ على نماذج البيئة واستخدامها بشكل صريح. لكن الباحثون أعلنوا عن تقدم مذهل عبر تقديم نموذج ذكاء اصطناعي عالمي جديد يُعرف باسم Universal AI with Q-Induction (AIQI).

ما يميز AIQI هو كونه الأول من نوعه الذي يعمل بدون نماذج، ومع ذلك أثبت أنه يصل إلى مستوى الأمثلية asymptotically ε-optimal في سياق تعلم التعزيز العام. بدلاً من الاعتماد على السياسات أو البيئات كما كانت عليه الأعمال السابقة، يقوم AIQI بإجراء الاستقراء العالمي عبر دوال القيمة الإجرائية (Action-Value Functions).

تحت ظروف دقيقة، تم إثبات أن AIQI قوي بما فيه الكفاية ليكون asymptotically ε-optimal وasymptotically ε-Bayes-optimal. بالإضافة إلى ذلك، تم تطبيق تقنيات البرهان الجديدة لدينا لإظهار الأمثلية ε-الأسيمبطيقية لنموذج يعتمد على Self-AIXI دون الحاجة إلى فرضيات عشوائية.

تشكل نتائجنا توسعاً كبيراً في تنوع الوكلاء العالميين المعروفين، مما يفتح المجال أمام أبحاث جديدة وابتكارات في الذكاء الاصطناعي. بينما نستمر في استكشاف هذه النتائج، يظل السؤال: كيف ستؤثر هذه التطورات على مستقبل الذكاء الاصطناعي وتطبيقاته في الحياة اليومية؟