في عالم الذكاء الاصطناعي، تعد نماذج اللغة الكبيرة (Large Language Models) واحدة من أكثر الابتكارات إثارة. ومع ذلك، يتساءل الباحثون: عندما نعمل على تطوير الأفكار بالتعاون مع هذه النماذج، هل تحافظ تلك النماذج على التزامها بالأهداف الأصلية؟ هنا يأتي دور DriftBench، المعيار الجديد الذي تم تصميمه لتقييم مدى التزام هذه النماذج بالقيود أثناء عمليات التفكير العلمي.

في دراسة شملت أكثر من 2146 عملية تقييم عبر سبع نماذج من خمسة مزودين، تم اختبار النماذج في أربع ظروف تفاعلية مختلفة باستخدام 38 ملخصًا بحثيًا من 24 مجالًا علميًا، لتظهر النتائج أن الضغط التكراري يمكن أن يزيد من التعقيد الهيكلي مرات عديدة، وغالبًا ما يقلل من الالتزام بالقيود الأصلية.

وتمت ملاحظة ظاهرة مثيرة: يشير "معدل المعرفة ولكن الانتهاك" (Knows-but-violates, KBV) إلى عدم الالتزام بالقيود رغم القدرة على تذكرها بدقة. وقد تراوح هذا المعدل بين 8% و99% عبر النماذج. على الرغم من أن التحقق البشري أكد أن النماذج لا تكتشف انتهاكات القيود بشكل كافٍ، يبقى من المهم تطوير أساليب للتحقق من صحة النتائج.

نتائج DriftBench تعتبر نقطة انطلاق هامة لفهم كيفية تفاعل النماذج مع القيود، مما يمهد الطريق لأبحاث مستقبلية قد تسهم في تحسين أداء نماذج الذكاء الاصطناعي في الأبحاث العلمية. هل تتساءل كيف يمكن أن تؤثر هذه النتائج على تطوير الخوارزميات في المستقبل؟ شاركونا آرائكم وتوقعاتكم في التعليقات!