في خطوة مبتكرة نحو تحسين تقييم أنظمة الذكاء الاصطناعي الخاصة بالأعمال، تم الإعلان عن BADGER، وهو إطار تقييم متكامل طورته شركة Merkle. يتجه BADGER إلى تجاوز طرق التقييم التقليدية التي تفتقر للتفاعل العملي مع الاستعلامات المعقدة.
تعتبر أنظمة الذكاء الاصطناعي الخاصة بالأعمال ضرورية في تحويل اللغة الطبيعية إلى استعلامات SQL وتنظيم عمليات استدلال ديناميكية متعددة الخطوات. غير أن طرق التقييم المستخدمة في الأوساط الأكاديمية لم تكن كافية لتلبية احتياجات السوق. لذا تم تطوير BADGER ليكون الاتحاد الفعّال بين تقييم تنسيق النص إلى SQL (text-to-SQL) وتقييم السلوك الديناميكي (agentic behavior evaluation).
يقدم BADGER ثلاث مساهمات رئيسية:
1. **استخراج مكون SQL المدعوم بواسطة نموذج اللغة الكبير (LLM)**، مما يعزز المنهجية التقليدية في التعامل مع SQL الذي يعتمد على CTE والمعايير المحددة للغة.
2. **مقياس دقة تنفيذ هجيني (Hybrid-EX)**، والذي يحل مشكلات تداخل الأسماء والتساهل العددي عن طريق استخدام LLM لاستنتاج التوافق الهيكلي قبل إجراء تقييم دقيق على مستوى الخلايا. تحققت النتائج على 150 استعلاماً تم توثيقه بشرياً، حيث أظهر Hybrid-EX دقة عالية تفوقت على جميع الأطر المنافسة.
3. **مجموعة تقييم ديناميكية للأعمال**، تجمع بين مقاييس RAGAS وG-Eval ومعايير الديناميكية الأخرى، مما يُخوّل الشركات من تقييم أدائها بدقة أكبر.
كل تلك المزايا تجعل BADGER يعمل بشكل كامل ضمن بيئة البيانات الخاضعة لإشراف العميل، مما يتيح تطوير القضاة والمعايير الخاصة بسرعة. يُعتبر BADGER أكثر من مجرد بوابة جودة؛ بل هو عمود أساسي لتقييم مستمر يلبي احتياجات السوق المتغيرة.
انطلاقة جديدة في تقييم الذكاء الاصطناعي: BADGER يجمع بين العوامل الديناميكية والتقييم المحدد في استدلال الأعمال
تمكن فريق Merkle من تقديم BADGER، إطار تقييم موحد يجمع بين تقييم SQL وتقويم السلوك الديناميكي، مما يفتح آفاق جديدة في مجال الذكاء الاصطناعي الخاص بالأعمال. يقدم BADGER حلول مبتكرة لزيادة الدقة في استعلامات الأعمال المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
