في عالم الذكاء الاصطناعي، تأتي الحاجة المتزايدة إلى تحسين استجابة نماذج اللغات الضخمة (Large Language Models) لتلبية طلبات المستخدمين المتزايدة. هنا، نقدم لك تقنية مبتكرة تهدف إلى تسريع استجابة هذه النماذج من خلال شبكة نظير إلى نظير (Peer-to-Peer Network).
يعتمد هذا الإبداع على استخدام نظام تخزين مؤقت مخصص (prefix caching) الذي يمكنه تقليل زمن استجابة الاستدلال عن طريق إعادة استخدام ذاكرات المفاتيح والقيم (KV caches) عبر طلبات مشتركة. ومع ذلك، كانت تحديات إعادة الاستخدام على نطاق واسع هي مثار قلق كبير، حيث يتم تقسيم هذه الذاكرات عبر نقاط العقد المختلفة.
لذا، اقترح الباحثون نظام توجيه مبتكر يتسم باللامركزية، والذي يعتمد على فهم مسبق للتخزين المؤقت. حيث يحتفظ كل عقدة بشجرة راديكس محلية (local radix tree) لنماذج تخزينها المؤقت، ويقوم بتحديث قيمة التقديرات الخاصة بها بشكل غير متزامن من خلال استخدام تقنية تعرف باسم "مكافحة الفوضى" (anti-entropy).
تتمثل الفكرة الرئيسية في توجيه الطلبات إلى العقدة التي تحتفظ بأطول تطابق تقديري سابق، دون الحاجة إلى تنسيق مركزي أو نقل ذاكرات المفاتيح والقيم. الجدير بالذكر أن البيانات القديمة قد تؤدي فقط إلى فقدان التخزين المؤقت، دون التسبب في نتائج غير صحيحة، لذا فإن تعدد الاتساق يعتبر كافياً لضمان الدقة.
أظهرت تقييمات لهذا النظام على أعباء العمل المحاكية قدرة كبيرة على تحسين زمن الاستجابة تحت ظروف التأخير المنخفض للتواصل وتوزيعات التخزين المؤقت المنحازة، بينما يحد التأخير العالي في الشبكة والنقاط الساخنة الناتجة عن التفضيلات من فعاليته.
بهذا التطور الجديد، يمكن أن نتوقع تحسناً ملموساً في أداء نماذج اللغات الضخمة في المستقبل.
ما رأيكم في هذه التقنية الجديدة؟ شاركونا في التعليقات!
تسريع استجابة نماذج اللغات الضخمة (LLMs) عبر شبكة نظير إلى نظير (P2P) بطرق مبتكرة!
تعرف على كيفية تحسين زمن الاستجابة لنماذج اللغات الضخمة (LLMs) باستخدام نظام توزيع جديد يعتمد على شبكة نظير إلى نظير (P2P). هذه التقنية الحديثة تعد بتوفير حلول فعالة دون الحاجة إلى تنسيق مركزي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
