في عالم الذكاء الاصطناعي، تتسم نماذج اللغة الكبيرة (Large Language Models) بكونها معقدة وتحتاج إلى وقت طويل لعمليات الاستدلال، وهو ما يعد عائقًا كبيرًا في البيئات المزدحمة. ولجعل العملية أسرع، تم تطوير ما يُعرف بـ "فك الشفرة التخيلية" (Speculative Decoding) التي تُسرّع هذه العمليات، ولكنها لا تزال تعتمد على نماذج ثابتة قد تُظهر تقلبات كبيرة في الدقة خلال المعالجة.

هنا تُدخل WhiFlash خطتها الثورية، إذ تُعد أول طريقة فك شفرة تخيلية عبر توجيه يتجاوز هذه القيود من خلال دمج نماذج استدلال خطية مع أخرى قائمة على الانغماس (Diffusion-based)، مما يمكن من تحقيق التوازن المثالي بين السرعة والدقة من خلال التحكم الدقيق على مستوى الرموز (Token Level).

تتميز WhiFlash بآلية توجيه دقيقة تعتمد إما على سياسة خفيفة تعتمد على مفهوم الانتروبيا أو سياسة تعلم عميقة، مما يسمح بتحقيق توازن قابل للتعديل بين المكاسب المتوقعة من الرموز والزمن المستهلك. بالإضافة إلى ذلك، قدمت WhiFlash تحسينات جديدة على إدارة الذاكرة مثل "Lazy Catch-up" و"KV-only Prefill"، مما يُقلّل من تكاليف التبديل ويجعلها أقل من 7% من الزمن المستهلك في كل دورة معالجة.

بوهرائها القوي، تحقق WhiFlash إنجازات مثيرة، إذ تُظهر معدلات قبول أعلى بكثير، مما يؤدي إلى زيادة الإنتاجية بمعدل يصل إلى 69.6% مقارنة بأحدث نماذج EAGLE-3 المعتمدة على الاستدلال، و37.3% مقارنة بنموذج DFlash القائم على الانغماس. هذا التطور يعيد تشكيل مفهوم الذكاء الاصطناعي وفك الشفرة التخيلية، مما يفتح آفاق جديدة في طرق الاستدلال.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.