اكتشاف UR$^2$: كيف يعيد توحيد الاسترجاع والتفكير من خلال التعلم المعزز؟

في عالم الذكاء الاصطناعي، تظهر نماذج اللغات الضخمة (Large Language Models) قدرات مذهلة عبر العديد من المجالات، لكن التحدي يكمن في كيفية دمج هذه القدرات بطرق فعالة. تمثل تقنيتا استرجاع المعلومات المعززة (Retrieval-Augmented Generation - RAG) والتعلم المعزز من المكافآت القابلة للتحقق (Reinforcement Learning from Verifiable Rewards - RLVR) ثنائيًا قويًا، إلا أن التحديات لا تزال قائمة.

هنا يأتي دور UR$^2$ (Unified RAG and Reasoning)، الإطار الجديد الذي نُقترح لتجاوز هذه القيود. يقدم UR$^2$ نظامًا ديناميكيًا ينسق بين الاسترجاع والتفكير بطريقة مبتكرة.

يتضمن UR$^2$ تصميمين رئيسيين يساعدان في تحسين الأداء: **منهج المناهج المعرفية المدركة للصعوبة**، حيث يتم استدعاء الاسترجاع فقط في حالات التحدي، و**استراتيجية الوصول الهجين إلى المعرفة** التي تجمع بين مجموعات البيانات الخاصة بالمجال وأيضًا الملخصات المولدة من نماذج اللغات الضخمة مباشرة. هذا يساعد على تقليل الفجوة بين الاسترجاع والتفكير، ويزيد من مقاومته للمعلومات المضطربة.

أظهرت التجارب التي أجريت على أسئلة مفتوحة وأبحاث طبية ومهام رياضية أن UR$^2$، المبنى على Qwen-2.5-3/7B وLLaMA-3.1-8B، يتفوق باستمرار على الأساليب التقليدية، محققًا أداءً منافسًا لنماذج مثل GPT-4o-mini وGPT-4.1-mini في العديد من المعايير.

يمكنك العثور على الشيفرة المصدرية لهذه الأبحاث المثيرة على [GitHub](https://github.com/Tsinghua-dhy/UR2).

لا شك أن UR$^2$ يمثل خطوة كبيرة نحو تعزيز قدرة الآلات على التفكير والتعامل مع المعلومات بطرق أكثر ذكاءً.

اكتشاف UR$^2$: كيف يعيد توحيد الاسترجاع والتفكير من خلال التعلم المعزز؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

هل تتعذر عليك الحصول على جهاز Mac Mini؟ تعرف على السبب وراء التأخير في التوريد!

هل يحدد OpenAI مستقبل الأمن السيبراني؟ الكشف عن أداة GPT-5.5 Cyber المبتكرة!

إيلون ماسك يكشف السر: كيف قامت xAI بتدريب Grok باستخدام نماذج OpenAI!