في عالم الذكاء الاصطناعي، أن تكون النموذج المُستخدم لتقييم توافق الإجابات أصبح هو الاتجاه السائد، ولكن في اختبار JudgeBench، تكافح حتى نماذج الحكام المُدربة بشكل جيد لتتجاوز العشوائية. هنا يأتي دور RTLC، وهي طريقة جديدة تضم ثلاث مراحل: البحث (Research)، التعليم للتعلم (Teach-to-Learn)، والنقد (Critique).
تعمل المرحلة الأولى على إحاطة الإدخال ببنية تعليمية ثابتة، مُستمدة من تقنية فeynمان التعليمية التي تتضمن خطوات متعددة: دراسة، تعليم، تحديد الفجوات، وتبسيط. في المرحلة الثانية، يتم سحب 10 أحكام مستقلة باستعمال درجة حرارة 0.4 لتحفيز التفكير الإبداعي. أما المرحلة الثالثة، فهي تعمل كناقد لنفسها، حيث تقارن مجموعة الأحكام المرشحة بالسؤال الأصلي لإصدار حكم نهائي مُنتقد.
أظهرت الاختبارات على JudgeBench-GPT، التي تحتوي على 350 عنصرًا صعبًا، أن دقة النموذج Claude 3.7 Sonnet قد ارتفعت من 64.6% (مع استخدام أمر بسيط) إلى 78.6% (باستخدام RTLC كعملية نقدية لعشرة). هذا بزيادة مطلقة تقدر بـ 14.0 نقطة مئوية.
علاوة على ذلك، فإن المنهج RTLC قد فاق تصويت الأغلبية الخاص بالتناسق الذاتي (77.7%) والنموذج الأول من دون تعديل (74.0%). يتجلى تأثير كل مرحلة بوضوح، حيث يُعزى 9.4 نقطة مئوية إلى الهيكل التعليمي، و3.7 نقطة مئوية إلى استخدام 10 حكم مقارن، و0.9 نقطة مئوية إلى النقد الصريح.
كما يناقش الباحثون أهمية توازن التكلفة والدقة وكيف أن RTLC يوفر استراتيجية أكثر كفاءة من التناسق الذاتي على جميع النقاط العاملة. يتناول المقال أيضًا كيفية معالجة الأخطاء عبر الفئات الأربعة لاختبار JudgeBench: المعرفة، التفكير المنطقي، الرياضيات، والترميز. سنرى كيف أن RTLC يمكن أن يتكامل مع التقييمات اللاحقة لتحسين النتائج بشكل مضاعف.
ثورة جديدة في تقنيات الذكاء الاصطناعي: منهج RTLC يعزز دقة نماذج اللغة الكبيرة دون تعديل!
تقدم RTLC، منهج الثلاث مراحل المبتكر، نتائج مبهرة في تعزيز دقة نموذج اللغة الكبير كحاكم، مما يفتح آفاق جديدة للذكاء الاصطناعي. اكتشف كيف يمكن لهذه التقنية تحسين دقة التقييمات بشكل كبير دون الحاجة إلى تعديل إضافي!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
