🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

لغز الاختلاف: كيف يؤثر تخزين القيم على دقة الاستنتاج في أنظمة الذكاء الاصطناعي

تظهر الأبحاث الجديدة أن تخزين القيم (KV caching) لا يعادل الحسابات التقليدية، خصوصًا تحت دقة FP16. النتائج تكشف عن اختلافات جذرية في دقة النماذج المستخدمة وتفتح آفاق جديدة لفهم عدم الاستقرار العددي في أنظمة LLM.

في عالم الذكاء الاصطناعي، يعتبر تخزين القيم (KV caching) تقنية شائعة تستخدم لتحسين أداء استنتاجات الأنظمة القائمة على نماذج التحويل. ومع ذلك، فإن أبحاثًا جديدة من arXiv تكشف ستارة هذه التقنية، مُظهرةً كيف أن ما كان يُعتبر مكافئًا حسابيًا، قد يكون في الواقع مصدرًا لاختلافات كبيرة عند استخدام دقة FP16.

تظهر الدراسات أن المسارات التنفيذية مع التخزين ومع عدمه تختبر ترتيبات مختلفة لتجميع الأعداد العشرية، مما يؤدي إلى انحراف حتمي في تسلسل الرموز الم decoded. تم اختبار ثلاثة نماذج تفتح الأوزان (مثل LLaMA-2-7B، Mistral-7B-v0.3، Gemma-2-2B) على مجموعة بيانات GSM8K، ولاحظ الباحثون أن معدل انحراف الرموز بلغ 100% بجميع استراتيجيات العينة، بما في ذلك الترميز الجشع، مما يدل على أن عدم الدقة لم يكن نتيجة للعشوائية.

عندما تم استخدام دقة FP32 بدلاً من FP16، انخفضت معدلات الانحراف بمقدار ثمانيةOrders of magnitude، مما أكد أن عدم الاتصال في FP16 هو المحرك الأساسي للاختلافات. كما تم الكشف عن أن نماذج تستخدم الانتباه المعتمد على الاستفسارات الجماعية تظهر انحرافًا حادًا في الطبقة الأولى، بينما تولد الانتباه من Gemma تجمعًا موحدًا عبر جميع الطبقات.

تشير هذه النتائج إلى أن تخزين القيم في استنتاج FP16 ليس معادلًا لإعادة الحساب، مما يوفر إطارًا ميكانيكيًا لفهم عدم الاستقرار العددي في أنظمة النماذج اللغوية الكبيرة (LLMs). مع هذا، يتوجب على الأبحاث المستقبلية استكشاف كيفية تحسين هذه الانحرافات لتحصيل نتائج أكثر دقة في تطبيقات الذكاء الاصطناعي.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة