تتجه البحوث في مجال اختيار البيانات إلى بحث المشكلة المتعلقة بتحديد مجموعات البيانات عالية الجودة لتدريب النماذج. في الوقت الذي ركزت فيه عدة دراسات على اختيار subset من البيانات باستخدام Data Shapley أو قيم شبه (semivalues) التي تأخذ بعين الاعتبار التفاعل بين كل subset، ظهرت آراء أخرى تشير إلى أن Data Shapley قد لا يكون فعّالًا دائمًا في الممارسات الفعلية، حيث ينتج عنها اختيار subsets قد تكون مقارنةً بالعشوائية.

هذا يثير عدة تساؤلات، أهمها:
(I) هل هناك إعدادات معينة تُعرف بـ 'Shapley-informative' حيث يعمل Data Shapley بكفاءة؟
(II) كيف يمكننا استغلال هذه الإعدادات بطريقة استراتيجية لانتقاء مجموعات بيانات عالية الجودة بشكل ثابت وفعال؟

في هذا السياق، نقدم إطار عمل مبتكر يُعرف بـ NASH (Non-linear Aggregation of SHapley-informative components)، والذي يقوم بـ (I) تحليل دالة الفائدة المستهدفة (مثل دقة التحقق) إلى دوال مكونة أبسط تُعتبر informative، ويقوم باختيار البيانات عن طريق تحسين هدف يجمع هذه المكونات بشكل غير خطي (II).

لقد أظهرت التجارب أن NASH تُعزز بشكل كبير فعالية اختيار البيانات المعتمد على Shapley أو semi-value مع تكاليف زمنية إضافية بسيطة. إن هذه التقنية الجديدة قد تكون هي الخطوة المقبلة تماشيًا مع أحدث الابتكارات في مجال الذكاء الاصطناعي، لتقديم أداء أفضل وتحقيق النجاح في مشاريع الذكاء الاصطناعي.