في عالم علم البيانات المتسارع، أصبح اختيار البيانات عنصراً أساسياً لضمان فعالية النماذج التي تعتمد عليها. ومع عدم توفر أساسيات نظرية واضحة لاستخدام قيم البيانات في هذا السياق، قدمت دراسة جديدة إطار عمل مبتكراً يقوم بإعادة صياغة مشكلة اختيار البيانات كشكل من أشكال اتخاذ القرارات المتعاقبة (Sequential Decision-Making).

تستند هذه الدراسة إلى البرمجة الديناميكية (Dynamic Programming) لتحديد تسلسل الاختيار الأمثل، حيث تُعتبر قيم البيانات (Data Values) بمثابة تشفيرات لهذا التسلسل الأمثل. من خلال هذا المنظور، يمكن إعادة تفسير الطرق الموجودة مثل طريقة Data Shapley، حيث يتم الكشف عنها كتقريبات خطية قصيرة النظر لمشكلة الاختيار المتعاقب.

بالإضافة إلى ذلك، يتم تحليل كيفية تدهور كفاءة الاختيار مع تقلب الفائدة تحت تأثير الطي المعكوس (Submodularity)، مما يوضح متى ولماذا تفشل هذه التقريبات. لتقريب النظرية من التطبيق، اقترح الباحثون نموذجاً بديلًا معتمدًا على الرسوم البيانية الثنائية (Bipartite Graph) يحافظ على الهيكل الفرعي ويتيح اختيارًا طريئاً وقابلاً للتوسع مع ضمانات مثبتة.

تظهر التجارب على معايير التعلم الآلي الكلاسيكية (Classical ML Benchmarks) واختيار بيانات ضبط النماذج كبيرة النطاق (LLM Fine-Tuning Data Selection) تحسينات ملحوظة مقارنة بالأساليب الحالية. الكود البرمجي متوفر علنياً عبر الرابط [GitHub Repository] لاكتشاف المزيد حول هذه الابتكارات.