في عالم الذكاء الاصطناعي، تعد القدرة على التفكير والتطور الذاتي من أهم القضايا التي تواجه نماذج اللغات. تقدم تقنية INFUSER (التحسين الذاتي المدعوم بالتأثير) حلاً مبتكرًا يتيح لنموذج اللغة أن يحسن من نفسه بدعم خارجي بسيط جدًا.
تستند هذه التقنية إلى إطار تدريبي تفاعلي يتضمن دورين متعاونين: المُنتج (Generator) الذي يقوم بصياغة الأسئلة والإجابات النموذجية من مستندات غير منظمة، والمحلل (Solver) الذي يتطور من خلال التدرب على هذه المواد. يتلقى المحلل مكافآت تعتمد على دقة الإجابات التي يقدمها المُنتج، بينما يُكافأ المُنتج بناءً على نقاط التأثير القابلة للقياس التي تحدد ما إذا كانت كل سؤال مقترح ستساهم حقًا في تحسين أداء المحلل.
هذه العملية المتواصلة، رغم ما فيها من ضجيج وتأثيرات عشوائية، تتطلب نظام تدريب متكيف يلبي احتياجات المحلل الحالي، وليس فقط تقديم أسئلة صعبة. تم اعتماد تقنية DuGRPO، وهي نسخة مزدوجة التعديل من GRPO، في عملية التدريب للمُنتج.
عند تطبيق INFUSER على نموذج Qwen3-8B-Base، أظهرت النتائج تحسنًا ملحوظًا بنسبة تفوق 20% مقارنة بأساليب التعلم الذاتي التقليدية، لا سيما في اختبارات أولمبياد الرياضيات وSuperGPQA. بل، تفوق مُنتج قديم بقدرة 8B في أداء مُنتج ثابت بقدرة 32B في مجالات الرياضيات والترميز.
تشير نتائج التجارب إلى أهمية كل عنصر من عناصر التصميم، كما أن هناك أيضًا امكانيات توسيع الاستخدام لهذه التقنية من خلال تطبيق INFUSER على إعدادات بيانية معدلة مسبقًا، مما يُظهر مرونة النظام وقدرته على التكيف.
للمزيد من التفاصيل، يمكنكم زيارة صفحة الكود المتاحة على GitHub رابط الكود.
INFUSER: ثورة في التعلم الذاتي لتحسين القدرة على التفكير
تقدم تقنية INFUSER خطوة جديدة في تطوير نماذج اللغات من خلال تحسين الذات المدعوم بتأثيرات استراتيجية. الطريقة الجديدة أثبتت قدرتها على تعزيز مهارات التفكير بنسبة تتجاوز 20% في الاختبارات المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
