في عالم الزراعة الحديث، تتنوع مصادر البيانات بين منصات عديدة تشمل التصوير الفوتوغرافي القريب والطائرات بدون طيار (UAV) إلى الصور المأخوذة بواسطة الأقمار الصناعية. يتطلب فهم الزراعة المتعدد الأبعاد (Multimodal Reasoning) قدرة قوية على استيعاب البيانات عبر مقاييس مختلفة. للأسف، عانت النماذج اللغوية الكبيرة (MLLMs) ال موجودة من تحيز مفرط نحو مستوى الأرض، مما يؤدي إلى التفسير الخاطئ للبيانات، مثل تحويل صور الأراضي الزراعية إلى جدران أو أرضيات.
لحل هذه المشكلة، تم تقديم مجموعة بيانات AgroOmni، وهي مجموعة بيانات ضخمة ومتعددة المشاهد تضم 288,000 زوج من أسئلة وأجوبة مرئية تغطي 56 فئة تخصصية عبر 14 نوعًا من المهام، تم تصميمها لالتقاط مقاييس متنوعة في زراعة الدقة الحديثة. وبناءً على هذه البيانات، تم اقتراح نموذج AgroNVILA، الذي حقق مستوى جديدًا من الأداء بنسبة 62.32% على معيار AgroMind، محققًا زيادة قدرها 15.03% مقارنةً بـ GPT-5.2، مما يسهم بشكل كبير في تقليل الفجوة بين المشاهد المتعددة.
أظهرت التقييمات التشخيصية على AgMMU وجود تباين جوهري بين أولويات الماكرو والتشخيصات الدقيقة، مما يعكس قوة النموذج في التعامل مع بيانات زراعية متعددة الأبعاد. بالإضافة لذلك، تظهر حتى عمليات الضبط الطفيف تحسينات كبيرة في أداء AgroNVILA على AgMMU، مما يدل على قدرته على التكيف والاستجابة للتحديات الجديدة.
المعلومات الخاصة بتدريب النموذج متاحة للجمهور، مما يساهم في تعزيز البحث في هذا المجال.
استعدوا لشهدوا كيف ستغير هذه الابتكارات طريقة فهمنا للزراعة، وشاركوا آرائكم حول كيف يمكن استغلال تحسينات البيانات في المستقبل!
AgroOmni: ثورة البيانات الزراعية متعددة الأبعاد لفهم الزراعة بشكل شامل!
تقدم AgroOmni مجموعة بيانات زراعية شاملة تدعم النماذج اللغوية الكبيرة في فهم الزراعة عبر مقاييس متعددة. تعزز هذه البيانات دقة التحليل وتخفض من الأخطاء الشائعة في تقييم المحاصيل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
