في خطوة ثورية [نحو](/tag/نحو) [تحسين الذات](/tag/[تحسين](/tag/تحسين)-الذات) المتكرر، يقوم [باحثون](/tag/باحثون) بتحليل قدرة [وكلاء](/tag/وكلاء) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) على [تصميم](/tag/تصميم) [نماذج أساسية](/tag/[نماذج](/tag/نماذج)-أساسية) تتجاوز [معمارية](/tag/معمارية) [المحولات](/tag/المحولات) التقليدية ([Transformers](/tag/transformers)). تم تقديم إطار [عمل](/tag/عمل) مزدوج مبتكر يجمع بين [AIRA-Compose](/tag/aira-compose) لتحديد [تصميمات](/tag/تصميمات) [المعمارية](/tag/المعمارية) على مستوى عالٍ، وAIRA-[Design](/tag/design) لتنفيذ الآليات التفاصيلية.
تقوم [AIRA-Compose](/tag/aira-compose) باستخدام 11 وكيلاً لاستكشاف العناصر الحسابية الأساسية خلال مهلة زمنية قدرها 24 ساعة. هؤلاء [الوكلاء](/tag/الوكلاء) يقيّمون مرشحين بمليون معلمة، ويقومون بتوسيع أفضل التصميمات لتكون هائلة بحجم 350 مليون، 1 مليار، و3 مليارات معلمة. [هذا العمل](/tag/هذا-العمل) أسفر عن [اكتشاف](/tag/اكتشاف) 14 [معمارية](/tag/معمارية) موزعة على فئتين: AIRAformers (المعتمدة على [Transformers](/tag/transformers)) وAIRAhybrids ([Transformer](/tag/transformer)-[Mamba](/tag/mamba)).
عند تدريبها على نطاق 1 مليار معلمة، أثبتت AIRAformers وAIRAhybrids تفوقها المستمر على [نماذج](/tag/نماذج) [Llama 3.2](/tag/llama-32) وComposer. على المهام اللاحقة، حقق كلا من AIRAformer-D وAIRAhybrid-D [تحسينات](/tag/تحسينات) في [الدقة](/tag/الدقة) بمقدار 2.4% و3.8% على التوالي مقارنة بـ [Llama 3.2](/tag/llama-32).
علاوة على ذلك، تمكنت [AIRA-Compose](/tag/aira-compose) من [اكتشاف](/tag/اكتشاف) [نماذج](/tag/نماذج) تتمتع بقدرات هندسية فائقة: حيث زادت AIRAformer-C من [سرعة](/tag/سرعة) الإجراء بنسبة 54% و71% مقارنة بـ [Llama 3.2](/tag/llama-32) وأفضل [نموذج](/tag/نموذج) محول من Composer، بينما تفوقت AIRAhybrid-C على Nemotron-2 بنسبة 23% وأفضل [نموذج](/tag/نموذج) [هجين](/tag/هجين) من Composer بنسبة 37%.
في [إطار العمل](/tag/إطار-العمل) الثاني، عُهد إلى 20 وكيلاً في AIRA-[Design](/tag/design) مهمة [كتابة](/tag/كتابة) [آليات](/tag/آليات) [انتباه](/tag/انتباه) جديدة بهدف تعزيز [العلاقات](/tag/العلاقات) طويلة المدى وكتابة [نصوص تدريب](/tag/[نصوص](/tag/نصوص)-[تدريب](/tag/تدريب)) فعالة. استطاعت المعماريات المصممة بواسطة [الوكلاء](/tag/الوكلاء) أن تصل إلى 2.3% و2.6% من أفضل [أداء](/tag/أداء) تم تحقيقه بواسطة الإنسان فيما يتعلق بمطابقة الوثائق وتصنيف النصوص في معيار Long Range Arena.
على معيار Autoresearch، حقق Greedy Opus 4.5 0.968 من وحدات البت لكل بايت تحت [ميزانية](/tag/ميزانية) زمنية ثابتة، متجاوزًا الحد الأدنى المنشور.
تُظهر هذه الأطر مجتمعة إمكانية [اكتشاف](/tag/اكتشاف) [الوكلاء](/tag/الوكلاء) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) لهياكل وتحسينات [خوارزمية](/tag/خوارزمية) يمكن أن تتفوق أو تتساوى مع [النماذج](/tag/النماذج) التي صممت يدويًا، مما يشكل خطوة واضحة [نحو](/tag/نحو) [تحسين الذات](/tag/[تحسين](/tag/تحسين)-الذات) المتكرر واستكشاف [نماذج جديدة](/tag/[نماذج](/tag/نماذج)-جديدة) من الجيل التالي.
استكشاف معماريات الشبكات العصبية: AIRA-Compose وAIRA-Design في طليعة الذكاء الاصطناعي!
تقدم AIRA-Compose وAIRA-Design نموذجاً جديداً لتمكين الذكاء الاصطناعي من تصميم معمارياته الخاصة بشكل مستقل. مع هذه الابتكارات، يمكن لوكلاء الذكاء الاصطناعي أن يتجاوزوا التصميمات التقليدية، مما يفتح آفاق جديدة في مجال الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
