في عالم الذكاء الاصطناعي، يتطلب تقديم المساعدة الفعالة من قبل الوكلاء الذكيين أن يكون لديهم فهم قوي لنظرية العقل (Theory of Mind - ToM). فكيف يمكن للآلات استنتاج الحالات العقلية للبشر من سلوكياتهم؟ رغم التطورات الأخيرة، لا تزال هناك عدة تحديات رئيسية، مثل:

1. **الاستدلال عبر الإنترنت** مع تحديثات موثوقة لعدم اليقين عبر فرضيات متعددة.
2. **التفكير الفعال** الملائم للمساعدات في الوقت الحقيقي.
3. **عدم وجود بيانات تعريفية دقيقة** للحالات العقلية في المجالات الواقعية.

للتصدي لهذه التحديات، تم تقديم إطار عمل MindZero، الذي يعتمد على التعلم الذاتي المدعوم بالتحفيز لتدريب نماذج لغات متعددة الوسائط (Multimodal Large Language Models - MLLMs)، وذلك لتوفير استدلال عقلاني عبر الإنترنت بشكل فعال وموثوق.

أثناء عملية التدريب، يتم مكافأة النموذج على توليد فرضيات حول الحالة العقلية، والتي تعظم احتمالية الأفعال المرصودة التي يقدرها المخطط، مما يشبه أسلوب التفكير القائم على النماذج في نظرية العقل. وبالتالي، يتم القضاء على الحاجة إلى بيانات الحالة العقلية الصريحة.

بعد التدريب، يقوم MindZero بتضمين التفكير القائم على النماذج في استدلال سريع ذو تمريرة واحدة. وقد قمنا بتقييم MindZero مقارنة بالأساليب الأساسية عبر مهام التفكير العقلي والمساعدات الذكية في مجالات مثل البيئات الشبكية (gridworld) والمنازل.

أظهرت النتائج أن نماذج اللغات الكبيرة (LLMs) لوحدها غير كافية؛ حيث تحسن الأساليب القائمة على النماذج الدقة لكنها تعاني من البطء والكلفة، وتكون محدودة بسعة نماذج MLLM. على النقيض، يعمل MindZero على تعزيز القدرة الإبداعية لنماذج MLLM فيما يتعلق بنظرية العقل، ويتفوق بشكل ملحوظ على الأساليب القائمة على النماذج من حيث الدقة والكفاءة، مما يدل على أن التفكير العقلي يمكن تعلمه بشكل فعال كمهارة ذاتية التوجيه.