في عالم الذكاء الاصطناعي المتطور، يمثل تنسيق البيانات إحدى المهام الحيوية التي تتطلب جهدًا كبيرًا من المطورين. يواجه هؤلاء المحترفون تحديات متكررة في اقتراح، تنفيذ، تقييم، ومراجعة سياسات البيانات، غالبًا في سياق ملاحظات غير دقيقة. مع مخاوف من وجود فجوة كبيرة بين التنفيذ والبحث، بدأ الباحثون في اختبار إمكانية استخدام وكلاء عموميين (Generalist Agents) لأتمتة هذه العملية.

يُعرف هذا البحث بإدخال معيار *Curation-Bench*، الذي يمنح الوكلاء قدرة على الوصول من خلال واجهة الأوامر (Command-Line Interface) لفحص البيانات، تنفيذ السياسات، وتقديمها ضمن خط أنابيب تدريب وتقييم ثابت. وقد أظهرت النتائج أنه في حالة ضبط التعليمات الخاصة بالنماذج، يمكن للوكلاء تحقيق نتائج قوية في اختيار البيانات خلال عشر دورات تدريبية.

مع ذلك، تكشف التحليلات اللاحقة عن وجود فجوة مستمرة في معظم الأوقات، حيث يميل الوكلاء إلى ضبط متغيرات السياسات المحلية بدلاً من استكشاف عائلات جديدة من السياسات. ومع وجود أدلة استراتيجية ومراجع ورقية، كان للاعتماد على هياكل محددة أثر إيجابي، حيث ساعد الوكلاء على تكوين سياسة اختيار بيانات محسّنة تفوق المعايير المنشورة بأقل تكلفة بيانات.

في الختام، بينما يمكن للوكلاء الحاليين تنفيذ دورة التنسيق، يتطلب البحث الموثوق عن البيانات تكييفًا منهجيًا مُنظمًا - وليس فقط طُرق مفتوحة. إن الكود والمعيار مفتوحا المصدر، مما يتيح لمجتمع البحث الاستفادة منه وتطويره أكثر في المستقبل.