في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتقدم، يتجاوز [البحث](/tag/البحث) الحديث حدود [المعرفة](/tag/المعرفة) التقليدية ويقدم [تقنيات جديدة](/tag/[تقنيات](/tag/تقنيات)-جديدة) تعزز من فعالية [معالجة البيانات](/tag/معالجة-[البيانات](/tag/البيانات)). تبرز في هذا [السياق](/tag/السياق) [تقنية](/tag/تقنية) TTE-Flash، التي تسرع عمليات [الاستدلال](/tag/الاستدلال) القائمة على [تمثيلات](/tag/تمثيلات) [متعددة الوسائط](/tag/متعددة-الوسائط).
أظهرت الدراسات السابقة أن [تمثيل البيانات](/tag/تمثيل-[البيانات](/tag/البيانات)) [متعددة الوسائط](/tag/متعددة-الوسائط) (Universal Multimodal Embedding - UME) يحقق فوائد كبيرة من خلال [الاستدلال](/tag/الاستدلال) السلس ([Chain-of-Thought](/tag/chain-of-thought) - CoT). حيث تقوم [النماذج](/tag/النماذج) الجيلامية بإنشاء مسارات استدلالية صريحة تسهم في استجابة فعالة للاستفسارات المعقدة، لكن [تكاليف](/tag/تكاليف) [الحساب](/tag/الحساب) اللازمة لإنشاء هذه المسارات غالبًا ما تكون عائقًا كبيرًا.
لذلك، يطرح [البحث](/tag/البحث) الجديد فكرة مبتكرة تتمثل في استبدال المسارات الاستدلالية الصريحة بمتغيرات [التفكير](/tag/التفكير) (Think [Tokens](/tag/tokens)) الكامنة. حيث تُعتبر هذه الرموز كمتغيرات يمكن أن تنتج مسارات استدلالية صريحة كمتغيرات ملحوظة. [عبر](/tag/عبر) [تحسين](/tag/تحسين) هذه الرموز باستخدام خسارة [توليد](/tag/توليد) CoT، وتجميع الرموز التالية باستخدام خسارة مقارنة، استطاع الباحثون إنتاج [تمثيلات](/tag/تمثيلات) فعالة ومستندة إلى [الاستدلال](/tag/الاستدلال) بتكلفة [استدلال](/tag/استدلال) ثابتة.
يتناول [البحث](/tag/البحث) أيضًا تصميمين رئيسيين للهيكلية: الأول هو كيفية استخراج الرموز من نفس هيكل [نموذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نموذج](/tag/نموذج)-[اللغة](/tag/اللغة)-الكبيرة) ([LLM](/tag/llm))، والثاني هو كيفية [تدريب](/tag/تدريب) الرموز كمهام تعتمد على بعضها البعض. ومن خلال ذلك، تم تقديم TTE-Flash-2B، وهو [نموذج](/tag/نموذج) تمثيل متعدد الوسائط مستند إلى [الاستدلال](/tag/الاستدلال) يتفوق على [النماذج](/tag/النماذج) التقليدية وفقًا لمعيار MMEB-v2.
أما بالنسبة للأداء، فقد أظهرت [التقييمات](/tag/التقييمات) السريعة [عبر](/tag/عبر) 15 [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) [فيديو](/tag/فيديو) [سلوكيات](/tag/سلوكيات) مثيرة للاهتمام مع زيادة [عدد](/tag/عدد) [رموز](/tag/رموز) التفكير، مما دفع أيضًا لدراسة حول [تخصيص](/tag/تخصيص) [ميزانية](/tag/ميزانية) [التفكير](/tag/التفكير) بشكل تكيفي بناءً على متطلبات المهام.
تتجه TTE-Flash إلى تشكيل [مستقبل](/tag/مستقبل) [الاستدلال](/tag/الاستدلال) في الذكاء الاصطناعي، مما يفتح آفاقًا جديدة للتطبيقات التي تعتمد على [فهم](/tag/فهم) [البيانات](/tag/البيانات) المتعددة الأبعاد. فهل تتمكن هذه [التقنية](/tag/التقنية) من التغلب على [القيود](/tag/القيود) التقليدية في [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!
ثورة جديدة في الذكاء الاصطناعي: كيف تسرع تقنية TTE-Flash عمليات الاستدلال متعددة الوسائط!
تقدم TTE-Flash نموذجًا ثوريًا لاستدلال متعدد الوسائط يجمع بين التفكير المرن والتشفير الذكي. هذه التقنية تعد بإحداث تحول جذري في كيفية معالجة البيانات المتنوعة وفهمها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
