في عالم الذكاء الاصطناعي، تكشف Forge عن تطور جديد يُعيد صياغة كيفية تعامل نماذج اللغة الكبيرة (LLMs) مع المشكلات الصعبة. بعد النجاح المذهل الذي حققته نماذج اللغة الكبيرة في مجالات متنوعة مثل الرياضيات، البرمجة، المنطق والألغاز، يأتي هذا التطور الجديد ليعالج ثغرة مربكة في التقييم التقليدي. حتى الآن، كانت المعايير المتبعة في التقييم تعطي الأولوية للدقة فقط، متجاهلة قدرة النماذج على إيجاد حلول مثلى ضمن القيود المتاحة.
تُقدم Forge إطار OPT-BENCH، الأول من نوعه، الذي يهدف إلى تدريب وتقييم نماذج اللغة الكبيرة على مشكلات من الصعوبة NP-hard من خلال التعلم المدعوم بالجودة (Quality-aware RLVR). يتكون هذا الإطار من ثلاثة مكونات رئيسية:
1. **بنية تدريب قابلة للتوسع** تضم مولدات حوادث، ومحققين للجودة، ومعايير مثلى عبر 10 مهام مختلفة.
2. **معيار صارم** مع 1000 عينة تقيم كل من القابلية للنجاح، التي تقاس بمعدل النجاح (Success Rate)، وجودة الحلول التي تقاس بنسبة الجودة (Quality Ratio).
3. **جوائز مدفوعة بالجودة** تتيح تحسين مستمر يتجاوز النتائج الثنائية.
عند التدريب على نموذج Qwen2.5-7B-Instruct-1M باستخدام 15,000 مثال، حصل النظام على معدل نجاح بلغ 93.1% ونسبة جودة 46.6%، متفوقاً بذلك بشكل ملحوظ على GPT-4o الذي سجل 29.6% في معدل النجاح و14.6% في نسبة الجودة.
الأهم من ذلك، أن التدريب على OPT-BENCH يُظهر أيضًا انتقالًا إلى مهام متنوعة، مثل تحسين الأداء في الرياضيات (%2.2+)، المنطق (%1.2+)، المعرفة (%4.1+)، واتباع التعليمات (%6.1+). تكشف التحليلات أن الجوائز المدفوعة بالجودة تُحسن الحلول بنسبة %28.8 مقارنةً بالجوائز الثنائية، وأن تنوع المهام يُعزز التعميم أكثر من كمية البيانات، مما يقدم رؤى جديدة حول كيفية scaling التعلم المدعوم بالجودة لمواجهة تحديات التفكير المعقد.
مع هذه الإنجازات، يبدو أن Forge تؤسس لمرحلة جديدة في الذكاء الاصطناعي، مما يفتح الباب لتطبيقات غير محدودة ومبتكرة.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
إعادة تعريف الذكاء الاصطناعي: Forge تُحدث ثورة في تحسين المشكلات المعقدة باستخدام التعلم المدعوم بالجودة
تقدم Forge إطارًا مبتكرًا يسمى OPT-BENCH يعزز أداء نماذج اللغة الكبيرة (LLMs) في حل المشكلات الصعبة من خلال التعلم المدعوم بجودة الجوائز. هذه التقنية الجديدة تعيد تقييم معايير التحسين وتفتح آفاقًا جديدة للتطبيقات المتنوعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
