في عالم الذكاء الاصطناعي، تدور مناقشات حيوية حول كيفية تحسين نماذج اللغات الكبيرة (Large Language Models). تتناول هذه المناقشات بشكل خاص الأساليب المتبعة في مرحلة ما بعد التدريب، حيث يُعتبر التعديل بالإشراف (Supervised Fine-Tuning) تقليداً، بينما يُنظر إلى التعلم المعزز (Reinforcement Learning) على أنه اكتشاف. ولكن، هل هذا الفرق كافٍ؟
المفاتيح لفهم هذه النقطة تتلخص في كيفية تأثير إجراءات التدريب على سلوكيات النموذج. يمكن تصنيف كل من عمليات ما بعد التدريب إلى نوعين: تنمية القدرات (Capability Elicitation) وإنشاء القدرات (Capability Creation). تنمية القدرات تتعلق بإعادة وزن السلوكيات التي يمكن للنموذج مسبقاً إنتاجها، بينما إنشاء القدرات يعني تغيير ما يمكن للنموذج الوصول إليه فعلياً.
تقديم مفهوم الدعم القابل للوصول (Accessible Support) يساعدنا في فهم هذا الفرق. هذا الدعم يمثل مجموعة من السلوكيات التي يمكن للنموذج إنتاجها تحت ميزانيات محددة. عندما نعيد وزن هذه السلوكيات، يكون ذلك ضمن إطار تنمية القدرات، بينما تغيير الدعم نفسه يعني إنشاء قدرات جديدة.
من منظور الطاقة الحرة، يمكن اعتبار كل من التعديل بالإشراف والتعلم المعزز كإعادة وزن لتوزيع مرجعي مسبق التدريب، ولكن مع إشارات خارجية مختلفة. تتعهد إشارات العرض بتعريف سلوك منخفض الطاقة للتعديل بالإشراف، بينما إشارات المكافأة تحدد سلوك منخفض الطاقة للتعلم المعزز.
وعندما تبقى التحديثات قريبة من النموذج الأساسي، يكون التأثير الرئيسي هو إعادة الوزن المحلي، وليس إنشاء القدرات. لذا، يصبح السؤال المركزي هو ما إذا كانت عمليات ما بعد التدريب تعيد وزن سلوكيات موجودة بالفعل، أو أنها توسع الفضاء السلوكي القابل للوصول من خلال البحث، والتفاعل، واستخدام الأدوات، أو دمج معلومات جديدة.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
تمييز تنمية القدرات عن إنشاء القدرات: منظور الطاقة الحرة في نماذج الذكاء الاصطناعي
تشكك الأبحاث الحالية في أبحاث ما بعد التدريب لنماذج اللغات الكبيرة حول كيفية تفاعل نماذج الذكاء الاصطناعي مع بيانات جديدة. هل هي تنمية للقدرات أم إنشاء لقدرات جديدة؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
