في عصر يتنامى فيه استخدام الذكاء الاصطناعي في مجالات متعددة، يظهر نمط خطأ في النموذج المعروف GPT-5.4 عند التعامل مع استفسارات تتعلق بالامتثال لمعيار OWL~2~DL. وقد أظهرت التجارب أن النموذج يُجيب غالبًا بـ "غير معروف" عندما تكون الإجابة المستنتجة من المحرك هي "لا"، خاصة في سياقات مثل {Functional Property} أو {disjointness}.
دراسة حديثة اعتمدت على 180 استفسار تم تدقيقها بواسطة المحرك، فضلاً عن 18 استفسارًا مؤلفًا يدويًا في مجالات متنوعة مثل التأمين والطب السريري. تمت مقارنة أربعة أنماط تفاعلية مختلفة تحت نفس ميزانية الاستفسار: المحاولة الواحدة، ثلاثة جولات من محاولة تصحيح عامة بـ "أنت مخطئ"، ثلاث جولات من تصحيح الحكم مع تلميحات فرضية العالم المفتوح (OWA)، وتصحيح الحكم بدون التلميحات.
نتائج الدراسة كانت مدهشة. الأداء المباشر للدقة كان 43.9%، بينما بلغ 81.7% في حالة إعادة المحاولة العامة. لكن ما أذهل الباحثين هو أن تصحيح الحكم مع التلميحات كان أسوأ بنسبة 67.2%، بينما وصل التصحيح بدون التلميحات إلى دقة 97.8%.
هذه النتائج تبرز أهمية تصميم الطلبات على دقة النموذج أكثر من محتوى التصحيح نفسه. من المهم فهم كيف يمكن أن تؤثر تفاعلات المستخدم مع أنظمة الذكاء الاصطناعي على النتائج النهائية. هذه الدراسة تدعو إلى ضرورة إعادة تقييم كيفية استخدام التلميحات التصحيحية في نماذج الذكاء الاصطناعي وضرورة تصميم الطلبات بحذر.
ما رأيكم في هذا البحث؟ كيف تعتقدون أن تحسين تصميم الطلبات يمكن أن يساهم في تحسين أداء نماذج الذكاء الاصطناعي؟ شاركونا آرائكم!
عندما تؤذي التلميحات التصحيحية: تصميم الطلبات في إصلاح LLM المتحفّظ تحت نوافذ OWL~2~DL
يكشف بحث جديد عن نمط خطأ قابل للتكرار في نموذج GPT-5.4 عند معالجة استفسارات متعلقة بـ OWL~2~DL. التفاعل مع النموذج بتصميم الطلبات يمكن أن يؤثر بشكل كبير على دقة النتائج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
