في ظل التطورات المتسارعة في مجال الذكاء الاصطناعي، أصبح ضبط نماذج اللغات الكبيرة (Large Language Models) مهماً جداً لمهام تصنيف النصوص. تقدم هذه الدراسة استراتيجيات جديدة وفعالة لتهيئة نماذج اللغة الكبيرة من أجل تصنيف النصوص، مع التركيز على أهمية الكفاءة في الاستخدام.
تناقش الدراسة نهجين رئيسيين:
1. **الربط المباشر (Embedding-Based)**: تفعيل رأس تصنيف على نموذج لغة مسبق التدريب وضبطه على المهمة مستفيدًا من تمثيل المخرجات النهائية.
2. **التوجيه (Instruction-Based)**: تعديله في تنسيق الاستجابة الموجهة للتصنيف.
لتمكين ضبط النماذج حتى 8 مليار بارامتر باستخدام GPU واحد، تم دمج تقنيات مثل ضغط النموذج باستخدام 4 بت مع التكيف منخفض الرتبة (LoRA) لتسهيل التدريب.
أظهرت التجارب على مجموعتين بيانات براءات الاختراع أن منهج الربط المباشر يتساوى أو يتفوق على منهج التوجيه في مهام التصنيف الأحادي، مع الحاجة لتدريب عدد قليل جداً من البارامترات. بينما كانت فعالية التوجيه أفضل فقط في مهام التصنيف متعدد التسميات، وشددت النتائج على احتياج ميزانيات تدريب أكبر.
يظهر كلا المنهجين أداءً تنافسياً جداً مقارنةً مع نماذج BERT المدربة على مجالات محددة، حيث تتفوق الطريقة الربط المباشر في المهام الأحادية. توضح اختبارات McNemar والتأكيد على الفاعلية نتيجة استخدام الربط المباشر، على الرغم من عدم الوصول إلى مستوى الثقة المطلوب.
تتوجه الدراسة نحو وضع إرشادات عملية لتحسين أداء ضبط نماذج اللغة الكبيرة في سيناريوهات التصنيف، مما يحدث نقلة نوعية في الطريقة التي نتعامل بها مع البيانات النصية.
استراتيجيات متقدمة في ضبط نماذج اللغات الكبيرة لتصنيف النصوص: تقنيات متطورة تفتح آفاق جديدة!
تقدم الدراسة استراتيجيات فعالة لضبط نماذج اللغات الكبيرة (LLMs) لتحسين تصنيف النصوص. يتم مقارنة نهجي الربط المباشر والتوجيه، بنجاح مبهر في الأداء والكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
