تُظهر النماذج اللغوية الكبيرة (Large Language Models - LLMs) قدرات مدهشة في فهم اللغة الطبيعية ومنطق reasoning، غير أن كيفية أدائها للحسابات الدقيقة تبقى محل تساؤل. نقدم في هذا المقال دراسة جديدة تركز على تقييم استراتيجيات تحفيز متنوعة تهدف إلى تحقيق أداء دقيق في مهام حساسة تتطلب نتائج خالية من الأخطاء، مثل العد الثنائي واكتشاف أطول سلسلة فرعية وتقييم العمليات الحسابية.
شملت الدراسة عدة استراتيجيات، مثل استراتيجية سلسلة الأفكار (Chain-of-Thought - CoT) ونموذج أقل إلى أكثر (Least-to-Most) وبرنامج الأفكار (Program-of-Thought - PoT) والاتساق الذاتي (Self-Consistency - SC). تم استخدام مجموعة بيانات صناعية تحتوي على تعليمات لغة طبيعية متنوعة، مما يتيح لنا تقييم الأداء بدقة في مجموعة من المهام.
أظهرت النتائج أن الطرق التقليدية للتحفيز تحقق فقط دقة معتدلة في المهام القائمَة على التسلسل. ورغم أن CoT تُظهر تحسنًا محدودًا، إلا أن أقل إلى أكثر تواجه مشاكل تراكم الأخطاء. بالمقابل، يوفر PoT دقة مثالية من خلال إنتاج كود قابل للتنفيذ وتفويض العمليات الحسابية إلى مفسر خارجي. يُعزز الاتساق الذاتي من القوة من خلال التصويت بالأغلبية، لكن ذلك يتطلب جهدًا حسابيًا كبيرًا.
وبالإضافة إلى ذلك، قمنا بتدريب نموذج متخصص صغير (CodeT5-small) يُنتج برامج قابلة للتنفيذ، مما حقق دقة كاملة في البيانات الاختبارية الاصطناعية المُحتفظ بها عبر جميع المهام بتكاليف تدريب ضئيلة. لذلك، تشير نتائجنا إلى أن LLMs قد تحاكي أنماط التفكير بدلاً من أداء الحسابات الرمزية بدقة. ومن أجل المهام المحددة، فإن الجمع بين LLMs وأدوات خارجية أو استخدام نماذج متخصصة يوفر حلًا أكثر موثوقية وكفاءة.
استكشاف استراتيجيات جديدة لتحسين دقة حسابات النماذج اللغوية الكبيرة
تظهر النماذج اللغوية الكبيرة (LLMs) قدرات قوية في فهم اللغة الطبيعية، لكن هل يمكنها إجراء حسابات دقيقة؟ دراسة جديدة تقيم استراتيجيات مختلفة لتحقيق نتائج موثوقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
