في عالم الذكاء الاصطناعي، برزت نماذج اللغة الضخمة (Large Language Models) كعوامل تغير حقيقية، تتصرف أحيانا كعوامل مستقلة في اتخاذ القرارات، مثل متى يجب أن تجيب مباشرة ومتى يجب أن تلجأ للأدوات الخارجية. ومع ذلك، يعتبر استخدام الأدوات في هذا السياق معضلة تتطلب دراسة معمقة، حيث تظهر الأبحاث الجديدة ضرورة التكيف مع النماذج المختلفة في هذا السياق.

الفجوة بين "المعرفة" و"الفعل" في استخدام الأدوات قد تم تسليط الضوء عليها من قبل الباحثين الذين وجدوا أن احتياجات استخدام الأدوات تختلف بشكل كبير مع قدرة النموذج. فمن الممكن أن ينجح نموذج قوي في حل المسائل بمفرده، على عكس نموذج أضعف يحتاج إلى مساعدة الأدوات. دراستهم تستعرض تعريفا جديدا لضرورة الأداة يركز على الأداء الفعلي لكل نموذج، مما يوفر رؤية عميقة حول كيفية استخدام الأدوات في سياقات محددة.

عبر مقارنة سلوكيات نماذج متعددة في استدعاء الأدوات باستخدام اختبارات رياضية وبيانات أسئلة وأجوبة (QA)، اكتشف الباحثون تناقضات كبيرة تتراوح بين 26.5% إلى 54% في دقة الاستدعاء. هذه الفجوة تكشف عن تحديات حقيقية، حيث كشفت التحقيقات أن المشكلة تكمن في الانتقال من مرحلة "الإدراك" إلى "التطبيق". وبينما كانت قدرات النماذج في التعرف على متى يجب استدعاء الأداة جيدة، إلا أن تحفيز الفعل العملي كان يعاني من قصور.

إذًا، كيف نُحسن الاعتماد على استخدام الأدوات؟ الإجابة تكمن في تعزيز قدرة النماذج على التعرف على الوقت المناسب لاستخدام الأدوات، وأيضا في تحسين المهارات اللازمة لتحويل هذه المعرفة إلى أفعال ملموسة.