في عالم الذكاء الاصطناعي السريع التغير، يبرز أهم عنصر في تحسين استدلال نماذج اللغات الضخمة (Large Language Models) وهو "توسيع الحساب في وقت الاختبار". بينما تُركز الطرق الحالية على تعميق النماذج عبر تمديد مسار استدلال واحد، تقدم تقنية OpenDeepThink نهجًا مبتكرًا بالتوسع عرضيًا من خلال معالجة مجموعة من المرشحين في وقت واحد.
ولكن، هناك تحدٍ يتعين التغلب عليه: كيفية اختيار المرشح الأفضل دون وجود موثق لتأكيد النتائج. لذا، تبدأ عملية OpenDeepThink بتقديم إطار عمل يعتمد على التقييم الثنائي بين المرشحين باستخدام نموذج برادلي-تيري.
خلال كل جيل، تقوم النماذج بإجراء تقييمات ثنائية عشوائية بين المرشحين، ويتم تجميع الأصوات لتشكيل تصنيف عالمي. يتم الحفاظ على المرشحين الأعلى تصنيفًا، وتُعدل نسبة 75% من المرشحين الأعلى باستخدام الانتقادات التي تم إنتاجها خلال عملية المقارنة، في حين يُرفض الربع الأدنى.
نتائج هذه الطريقة تمثل قفزة كبيرة حقًا؛ حيث زادت فعالية نموذج Gemini 3.1 Pro بمعدل +405 نقاط على منصة Codeforces في ثمانية جولات متتالية من استدعاء LLM، وهو ما يعادل حوالي 27 دقيقة في الوقت الفعلي.
بفضل OpenDeepThink، يمكن نقل الأنبوب إلى نماذج ضعيفة أو قوية دون الحاجة إلى إعادة ضبط، وقد أظهرت النتائج على معيار HLE المتعدد المجالات أن المكاسب تتمركز في المجالات القابلة للتحقق موضوعيًا، بينما تنعكس في المجالات الذاتية.
إضافةً إلى ذلك، نحن الآن بصدد إطلاق CF-73، مجموعة تم تنسيقها تضم 73 مشكلة من خبراء في Codeforces مع تصنيفات Grandmaster الدولية وتوافق بنسبة 99% في التقييم المحلي ضد الأحكام الرسمية.
هل أنتم مستعدون لاستكشاف آفاق جديدة في الذكاء الاصطناعي مع OpenDeepThink؟ شاركونا آراءكم وتجاربكم في التعليقات!
اكتشف OpenDeepThink: ثورة في التحليل الموازي باعتماد تجميع برادلي-تيري!
تقدم OpenDeepThink إطارًا مبتكرًا لتحسين استدلال نماذج اللغات الضخمة (LLMs) من خلال مقارنة اختيارية قائمة على نموذج برادلي-تيري. تعرفوا على كيفية تحسين الأداء وتقليل العيوب في اختيار الحلول.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
