في عالم الذكاء الاصطناعي، تُعتبر مشكلة التصنيف غير المتوازن من أكبر التحديات التي تواجه الباحثين والمطورين. تعتمد تقنيات التصنيف التقليدية على أساليب مثل زيادة عدد العينات النادرة (Oversampling) لتعزيز دقة النماذج. ولكن، حتى الطرق الرائجة مثل SMOTE، تعاني من فقدان المعلومات عند تحويل المتغيرات التصنيفية إلى متجهات عددية.

في الفترة الأخيرة، تمت الإشادة بأساليب جديدة تعتمد على نماذج اللغات الضخمة (Large Language Models - LLMs) للتغلب على هذه العقبة. ومع ذلك، تظل هذه الأساليب الحالية تنتج عينات نادرة بتنوع محدود، مما يؤثر سلباً على قوة النماذج ومدى تعميمها في مهام التصنيف المستقبلية.

لمعالجة هذه الفجوات، نقدم طريقة جديدة تعتمد على نماذج اللغات الضخمة تهدف إلى تعزيز التنوع. أولاً، نقوم بتقديم استراتيجية جديدة مختصة بتوليد عينات اصطناعية ترتكز على كلاً من التسميات النادرة والميزات. ثانياً، نطور استراتيجية جديدة للتهجين Fine-Tuning لنماذج LLMs المدربة مسبقاً. وأخيراً، نقوم بتدريب هذه النماذج ليس فقط على العينات النادرة بل أيضاً على العينات المتداخلة لزيادة التنوع.

أثبتت التجارب الواسعة على 10 مجموعات بيانات جدولة أن طريقتنا تتفوق بشكل ملحوظ على ثمانية أساليب حالية. فالعيّنات الاصطناعية الناتجة ليست فقط واقعية بل متنوعة أيضاً. بالإضافة إلى ذلك، نقدم تحليلاً نظرياً من منظور يعتمد على الإنتروبيا، مما يُظهر كيف تعزز طريقتنا التنوع في العينات المُنتجة.

هذا التطور في استخدام نماذج اللغات الضخمة يمكن أن يُعيد تشكيل كيفية معالجة المشكلات المتعلقة بالتصنيف، ويعطي دفعة قوية للمستقبل في سعي الشركات لحل تلك التحديات.

ما رأيكم في هذا الابتكار؟ شاركونا آراءكم في التعليقات!