في عالم الذكاء الاصطناعي، تُعتبر [نماذج Transformer](/tag/[نماذج](/tag/نماذج)-transformer) من اللبنات الأساسية التي تقوم عليها العديد من الأنظمة الحديثة. ومع ذلك، تعاني هذه [النماذج](/tag/النماذج) من نقص في القدرة على التعامل مع عدم اليقين، وهو أمر شائع في [التطبيقات](/tag/التطبيقات) الواقعية مثل [التوصية](/tag/التوصية) للمستخدمين الجدد وتنوع جودة الإشارات في [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)).

تقدم ورقة جديدة مفهوم '[Transformer](/tag/transformer) باستخدام مرشح [بايزي](/tag/بايزي)' ([Bayesian Filtering](/tag/bayesian-filtering) [Transformer](/tag/transformer) - BFT) الذي يعالج هذه القضية المستعصية. من خلال هذا المفهوم، يتم تعديل آلية [الانتباه](/tag/الانتباه) لتصبح تعتمد على [دقة](/tag/دقة) القياسات باستخدام طريقة Kriging، بينما تصبح الروابط المتبقية في النموذج [تحديثات](/tag/تحديثات) كالمَن ذات مكاسب قابلة للتكيف.

هذه التعديلات لا تتطلب إضافة عبء كبير للنموذج، مما يسهل دمجها في أي بنية [Transformer](/tag/transformer). على سبيل المثال، عند تطبيق BFT على ثلاثة [نماذج](/tag/نماذج) رئيسية في مجال التوصية، تم [تحقيق](/tag/تحقيق) [تحسينات](/tag/تحسينات) كبيرة [عبر](/tag/عبر) ست [معايير](/tag/معايير) تقييم، مع [تحقيق](/tag/تحقيق) أكبر المكاسب في الحالات التي تكون فيها درجة [عدم اليقين](/tag/عدم-اليقين) مرتفعة، مثل المستخدمين الجدد والمنتجات النادرة.

بالإضافة إلى ذلك، تظهر النتائج أن BFT يُعزز من [قوة](/tag/قوة) التحمل في عملية [التدريب](/tag/التدريب) الإشرافي لنموذج [اللغة](/tag/اللغة) الكبير مع [البيانات](/tag/البيانات) الم noisy، حيث يُسهم في تقليل التلوث الناتج عن علامات غير دقيقة وسياقات مضطربة.

إن مجرد تعديل واحد يهدف إلى استعادة [دقة](/tag/دقة) القياسات يُمكن أن يُحدث فرقاً كبيراً في الأداء، ليس فقط في [النماذج](/tag/النماذج) التقليدية، بل أيضاً في [نماذج](/tag/نماذج) اللغات الكبيرة (Large Language [Models](/tag/models) - [LLMs](/tag/llms)).

ما رأيكم في هذا التطور المثير في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا في [التعليقات](/tag/التعليقات).