في عالم الذكاء الاصطناعي، تتنوع استراتيجيات التفكير وطرق التنفيذ، مما يجعل اختيار الطريقة المثلى أمرًا بالغ الأهمية. في هذا السياق، تم تقديم HRBench، وهو إطار عمل جديد يهدف إلى تقييم استراتيجيات تغيير أوضاع التفكير في نماذج اللغات الضخمة الهجينة (Hybrid-Reasoning Large Language Models - LLMs).

تتيح نماذج التفكير الهجينة التحكم الصريح في جهد التفكير، مما يمكّن المستخدمين أو الأنظمة من مقارنة جودة الإجابات بتكاليف الاستدلال. لكن حتى الآن، كانت الأساليب المعمول بها في اختيار أنماط التفكير تتسم بالفوضى، حيث تم تقييمها تحت نماذج وقواعد بيانات وافتراضات مختلفة، مما يجعل المقارنة بينها أمرًا معقدًا.

HRBench يوفر إطار تقييم موحد، حيث ينظم تصميم الدراسة على محورين: ثلاث عائلات من استراتيجيات التبديل، تشمل الاختيار القائم على التعليمات (Prompt-based Selection)، التوجيه الخارجي (External Routing)، والتنفيذ الاستباقي (Speculative Execution). كما يحتوي الإطار على أربعة أنظمة تدريب تشمل التدريب المجاني (Training-free)، التدريب تحت الإشراف (SFTالتعلم المعزز غير المتصل (Offline RL) والتعلم المعزز المتصل (Online RL)، مما يؤمن 12 إعدادًا تم التحكم فيه للتقييم.

تم تقييم هذه الإعدادات عبر 6 نماذج LLM تبدأ من Qwen3.5-2B إلى Kimi-K2.5-1.1T، بالإضافة إلى 5 معايير لتقييم الاستدلال تشمل الرياضيات، العلوم، والشيفرات. وقد تم إعادة تنفيذ أكثر من 12 طريقة تمثيلية سابقة ضمن نفس العملية.

تشير تحليلاتنا إلى أن استراتيجيات التبديل المختلفة تحتل مناطق تجارية مستقلة جدًا من الفعالية والكفاءة، حيث تقدم الأساليب المبنية على التعليمات عادةً توازنًا مواتيًا بين دقة التوكن (Token-Accuracy)، بينما تقدم طرق التوجيه تخفيض تكاليف أكثر استقرارًا، وتميل الأساليب الاستباقية إلى تحسين الدقة بتكلفة توكن أعلى. كما أن تأثير التدريب يختلف بشكل كبير من استراتيجية لأخرى، وأن الاستراتيجية المفضلة تتغير مع حجم النموذج ومجال المهمة.

يقدم HRBench تنفيذات مرجعية ومنصة تقييم موحدة لدعم مزيد من الأبحاث الموجهة حول الاستدلال الفعال في نماذج اللغات الضخمة الهجينة. يمكنكم الاطلاع على البيانات، الكود والمستودع الخاص بالبحث عبر الرابط: HRBench GitHub.