تسعى التكنولوجيا الحديثة إلى تحسين الأداء واتخاذ القرارات بدقة أكبر في مجال الروبوتات، حيث تختبر نماذج الرؤية واللغة (Vision-Language Models) حدود الذكاء الاصطناعي. لكن، مع تقدم هذه النماذج، ظهرت تحديات جديدة تتعلق بالموثوقية، وخاصة الهلوسة - تلك الأخطاء التي تؤدي إلى استنتاجات خاطئة.
لتجاوز هذه العقبة، تم تقديم إطار التفكير المُوجه بلغة الشيفرة (Pseudocode-guided Structured Reasoning) المعروف اختصارًا ب(PStar). يعمل هذا النظام من خلال اختيار مسارات تفكير مُنظمة تستند إلى الشيفرات الوهمية، مما يمكن نماذج الرؤية واللغة من القيام بعمليات تفكير مرنة ومُنظمة.
لقد شمل هذا الإطار تصميم مجموعة من وظائف التفكير المجردة وتطوير مكتبة شيفرة مُنظمة تمثل استراتيجيات تفكير قابلة للتعديل. وأحد الابتكارات في هذا النظام هو تصميم متجه خصائص الصعوبة (Difficulty Feature Vector) الذي يُتيح للنموذج تقييم تعقيد الأسئلة وبالتالي اختيار استراتيجيات تفكير مناسبة.
تكشف التجارب الشاملة أن PStar قد تمكن من تقليل معدلات الهلوسة بشكل كبير، محققًا درجات تاريخية تبلغ 87.1% على مجموعة بيانات POPE و68.0% على MMStar، متفوقًا بذلك حتى على نماذج مثل GPT-4V. من خلال توفير آلية موثوقة لتقليل الأخطاء في تفاعل الرؤية واللغة، يمثل PStar خطوة حاسمة نحو تحويل نماذج الرؤية واللغة إلى أنظمة آلية أكثر أمانًا وموثوقية في التطبيقات العملية.
ثورة جديدة في الذكاء الاصطناعي: إطار التفكير المُوجه بلغة الشيفرة لحل مشكلات نماذج الرؤية واللغة!
تمكن إطار التفكير المنظم (PStar) من تقليل حالات الهلوسة في نماذج الرؤية واللغة، مما يعزز موثوقية الروبوتات في تنفيذ الأوامر المعقدة. هذا الإطار يعد خطوة محورية نحو أنظمة آلية أكثر أمانًا ودقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
