تشير الأبحاث الحديثة إلى أن نماذج الترنسفورمر (Transformers) قد تقوم باستدلال بايزي (Bayesian Inference) بصورة مثيرة. لكن حتى الآن، كان من الصعب التحقق من هذا الأمر بصورة دقيقة، حيث أن البيانات الطبيعية تفتقر إلى بوستريورات (Posteriors) تحليلية، وغالبًا ما تمتزج العمليات الاستدلالية بالذاكرة. ولتجاوز هذا التحدي، تقدم الدراسة مفهوم "أنفاق الرياح البايزية"، وهي بيئات خاضعة للسيطرة حيث يكون البوستريور الحقيقي معروفًا بشكل مغلق، مما يجعل الذاكرة مستحيلة.
في هذه الأنفاق، تمكنت نماذج الترنسفورمر الصغيرة من استنساخ بوستريورات بايزية بدقة تصل إلى $10^{-3}$-$10^{-4}$، بينما فشلت الشبكات العصبية متعددة الطبقات (MLPs) بفارق كبير، مما يوفر فصلاً معماريًا واضحًا بين التقنيات. وتؤكد النتائج عبر مهمتين – إزالة الثنائيات (Bijection Elimination) وتتبع حالات نموذج ماركوف المخفي (Hidden Markov Model) – أن الترنسفورمر يعتمد على استدلال بايزي من خلال آلية هندسية متسقة.
تكشف الأدوات الهندسية المستخدمة عدة أبعاد رئيسية، بما في ذلك توازي متجهات المفاتيح (Key Bases) والتوافق التدريجي بين الاستعلامات والمفاتيح. وخلال مرحلة التدريب، يتكشف هذا المنحنى الهندسي بينما تظل أنماط الانتباه مستقرة، وهو ما يُعرف بفصل الإطار والدقة، وهو ما تم التنبؤ به من خلال تحليلات التدرجات الحديثة. تشير هذه النتائج مجتمعة إلى أن الانتباه الهرمي (Hierarchical Attention) يحقق استدلالًا بايزيًا من خلال تصميم هندسي، مما يفسر لماذا يعد الانتباه ضروريًا ويفسر فشل الهياكل المسطحة.
تمثل "أنفاق الرياح البايزية" أساسًا لربط الأنظمة الصغيرة القابلة للتحقق بالظواهر الاستدلالية الملحوظة في نماذج اللغات الكبيرة (Large Language Models). إن فهم كيفية أداء النماذج لتلك العمليات يمكن أن يمهد الطريق لتطوير تقنيات أكثر تقدمًا في مجالات الذكاء الاصطناعي.
الهندسة البايزية في انتباه الترنسفورمر: كيف تعيد تشكيل الذكاء الاصطناعي؟
تقدم دراسة جديدة مفهومًا مثيرًا حول طريقة عمل نماذج الترنسفورمر في الذكاء الاصطناعي، من خلال اعتمادها على مبادئ الهندسة البايزية. هذا الاكتشاف يسهم في فهم أعمق لآلية استدلال هذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
