تعدّ مرحلة إعداد البيانات من أبرز التحديات في سير عمل تحليلات البيانات، حيث تستغرق وقتًا كبيرًا في العمل التقليدي. لطالما كانت الأدوات التجارية تعتمد على واجهات المستخدم الرسومية (GUIs) لتسهيل هذه العملية، مما يمكّن المستخدمين من تحديد التحولات من خلال خيارات بصرية. ومع التقدم الأخير الذي حققته نماذج اللغات الضخمة (LLMs)، ظهرت إمكانية حدوث تحول جوهري نحو إعداد البيانات المدفوع باللغة الطبيعية (NL)، والذي يمكن المستخدمين من تحديد رغباتهم التحضيرية مباشرةً بواسطة اللغة الطبيعية.
لكن، في ظل هذه التطورات، يبقى السؤال: ما مدى قربنا من هذا التحول في الممارسة العملية؟ تكشف التقييمات الحالية لتوليد الأكواد عن عدم قدرتها على التقاط الخصائص الأساسية لإعداد البيانات، خصوصاً ما يتعلق بالتوجهات الغامضة للمستخدمين، والبيانات الواقعية غير المكتملة، والحاجة لترجمة الأكواد إلى سير عمل مفهومة للتحقق من صحتها.
لملء هذه الفجوة، تم تقديم PrepBench، وهو معيار مصمم لتقييم إعداد البيانات المدفوع باللغة الطبيعية من خلال ثلاث قدرات رئيسة: التوضيح التفاعلي، توليد الكود التحضيري، وترجمة الكود إلى سير العمل. حيث تم جمع البيانات من تحديات Preppin' Data، وتم توسيعها إلى معيار مصمم بشكل منهجي يغطي مجالات متنوعة، حيث يتضمن كل مهمة من 3 إلى 18 خطوة في إعداد البيانات. يُظهر التقييم أن ما يقرب من نصف المهام تتطلب أكثر من 100 سطر من أكواد Python، حيث تقترب الحلول الأطول من 300 سطر. ورغم التقدم الكبير المحرز، لا تزال هذه الثورة في إعداد البيانات تواجه العديد من التحديات التي يجب التغلب عليها.
بعبارة أخرى، تمثل PrepBench معيارًا مدروسًا لقياس هذه الفجوة وتساعد في تحديد التحديات الرئيسية نحو تحقيق إعداد البيانات المدفوع باللغة الطبيعية. هل ستحقق نماذج اللغة الكبرى قفزة نوعية نحو المستقبل؟
استعد لثورة جديدة في إعداد البيانات: هل نحن قريبون من استخدام اللغة الطبيعية؟
تستكشف PrepBench التحديات الحالية لإعداد البيانات المدفوع باللغة الطبيعية، معززةً بشكل متزايد بفضل نماذج اللغات الضخمة (LLMs). ورغم التقدم المحرز، لا يزال هناك العديد من العقبات التي تواجه هذه الثورة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
