في عالم الذكاء الاصطناعي المتطور، فإن نماذج اللغة الكبيرة (LLMs) أصبحت أدوات قوية قادرة على استخدام وظائف خارجية لأداء مجموعة متنوعة من المهام. لكن ما يحدث عندما تواجه هذه النماذج تعليمات غير واضحة؟

أجريت دراسة جديدة لتقييم أداء نماذج اللغة الكبيرة في استخدام الأدوات تحت تعليمات غير دقيقة، وهذه الدراسة جاءت في شكل Benchmark جديد يُعرف باسم Noisy ToolBench. ومن خلال هذه الدراسة، تم تحليل أنماط الأخطاء الناتجة عن التعليمات الغامضة، مما أوضح أن نماذج اللغة غالبًا ما تولد مكونات مفقودة بشكل عشوائي، مما قد يؤدي إلى تشوهات في النتائج.

لحل هذه المشكلة، قدم الباحثون إطار عمل جديد يسمى Ask-when-Needed (AwN)، الذي يشجع نماذج اللغة على طرح أسئلة للمستخدمين عندما تواجه عقبات بسبب التعليمات غير الواضحة. هذا الإطار الجديد يساعد في تعزيز التفاعل بين المستخدم والنموذج بطريقة أكثر فعالية.

أيضاً، تم تصميم أداة تقييم آلية تُعرف باسم ToolEvaluator، لتقليل الجهد اليدوي في التفاعل ولتقييم أداء النماذج في استغلال الأدوات من منظور الدقة والكفاءة. وأظهرت التجارب أن الإطار AwN يتفوق بشكل ملحوظ على الأطر السابقة في Benchmark NoisyToolBench.

بفضل هذه الجهود، سيتم نشر جميع الأكواد ومجموعات البيانات لدعم الأبحاث المستقبلية في هذا المجال المتطور. هل أنتم مستعدون لاستكشاف هذا التقدم الرائع في الذكاء الاصطناعي؟