RLearner-LLM: تحقيق التوازن بين المنطق والفصاحة في نماذج اللغات الضخمة عبر تحسين التفضيلات الهجينة

في عالم تطوير نماذج اللغات الضخمة (Large Language Models)، يُعد تحقيق التوازن بين الفصاحة المنطقية من التحديات الكبيرة. تمثل تقنية تحسين التفضيلات المباشرة (Direct Preference Optimization - DPO) بديلاً فعالاً للأساليب السابقة؛ إلا أنها تعاني في الإنتاج المعتمد على المعرفة، حيث يظهر تحيز مفرط نحو الفصاحة على حساب الدقة المنطقية.

لتجاوز هذه الفجوة، تم تقديم RLearner-LLM، التي تعتمد على تحسين التفضيلات الهجينة (Hybrid-DPO)، والتي تجمع بين إشارات الإنتماء من نموذج DeBERTa-v3 مع تقييم نموذج آخر. هذه الطريقة لا تعتمد على التقييم البشري، مما يساهم في تقليل ما يُعرف بـ 'ضريبة التوافق' الناتجة عن استخدام إشارة واحدة فقط.

تُظهر التجارب التي أُجريت في خمسة مجالات أكاديمية (علم الأحياء، الطب، والقانون) تعاون ثلاثة نماذج أساسية (LLaMA-2-13B، Qwen3-8B، Gemma 4 E4B-it)، تحقيق RLearner-LLM تحسيناً يصل إلى 6 مرات في دقة الاستدلال المنطقي (NLI) مقارنة بأساليب التعلم السطحي (SFT). وازداد الأداء في 11 من 15 حالة، مع تحسينات ملحوظة في تغطية الإجابات.

في حالة نموذج Gemma 4 E4B-it الذي يحتوي على 4.5 مليار معلمة، حقق Hybrid-DPO تحسينات في أربعة من أصل خمسة مجالات (+11.9% إلى +2.4x) مع تقليص زمن الاستدلال عبر جميع المجالات الخمسة دون التضحية بالجودة، ما يجعله نموذجًا فعالًا حتى عند الوصول إلى نماذج أصغر.

لقد حقق نموذج Qwen3-8B RLearner-LLM نسبة نجاح تصل إلى 95% في مقارنة ثنائية مع قاعدته السابقة، بينما حصل نموذج GPT-4o-mini بدوره على 95% من النجاح في مواجهته مع نتائج RLearner-LLM. يمثل هذا التقدم خطوة كبيرة نحو تطوير نماذج الذكاء الاصطناعي التي تجمع بين الفصاحة والدقة المنطقية، وتدعو إلى اعتماد مقاييس أكثر وعيًا بالمنطق (NLI، ACR) في التقييم.

RLearner-LLM: تحقيق التوازن بين المنطق والفصاحة في نماذج اللغات الضخمة عبر تحسين التفضيلات الهجينة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

NVIDIA تطلق SANA-WM: نموذج عالمي مفتوح المصدر يولد فيديوهات دقيقة بدقة 720p باستخدام GPU واحد!

مواجهة بين ماسك وألتمن: تحولات دراماتيكية في المحاكمة الأخيرة!

بذكاء اصطناعي: باحثون يخترقون نظام macOS ويكشفون عن ثغرات مثيرة!