في خطوة متقدمة نحو تطوير الذكاء الاصطناعي في علوم الحياة، تم تقديم BioAgent Bench، وهو معيار متكامل يهدف إلى تقييم أداء ووثوقية وكلاء الذكاء الاصطناعي في المهام المتعلقة بالمعلومات الحيوية. يتضمن هذا المعايير الجديدة مجموعة من المهام الشاملة، مثل تحليل تسلسل RNA (RNA-seq) واكتشاف الطفرات (variant calling) والميتابيوعلم (metagenomics).
تم تصميم BioAgent Bench لدعم التقييم الآلي من خلال تقديم موجهات تحدد نتائج معينة، مما يسهل إجراء تقييمات دقيقة تحت ظروف مختبرية محكمة، مثل اختبارات الإجهاد التي تضمن موثوقية النتائج.
أجرت الدراسة تقييمًا لموديلات متقدمة مغلقة المصدر (closed-source) ومفتوحة الوزن (open-weight) عبر عدة هياكل وكيلية، مستخدمين نموذجًا قائمًا على نموذج لغوي كبير (Large Language Model) لتقييم تقدم الأنظمة وموثوقية النتائج.
تُظهر النتائج أن الوكلاء المتقدمين قادرون على إتمام سلسلة من الخطوات في الأنظمة الحيوية دون الحاجة إلى دعم مخصص معقد، وغالبًا ما ينتجون النتائج المطلوبة بدقة. ومع ذلك، كشفت اختبارات التحمل عن وجود أنماط فشل تحت تأثير مدخلات متحورة وملفات مزيفة، مما يشير إلى أن بناء الأنظمة بشكل صحيح لا يضمن دائمًا منطقًا موثوقًا في كل خطوة.
من المهم ملاحظة أنه نظرًا لطبيعة سير العمل في المعلومات الحيوية التي قد تتعامل مع بيانات حساسة للمرضى، فإن النماذج المغلقة المصدر قد لا تكون مناسبة تحت قيود الخصوصية الصارمة. لذا، قد تكون النماذج المفتوحة الوزن أكثر تفضيلاً على الرغم من انخفاض معدلات الإنجاز.
يتم إصدار مجموعة البيانات ومجموعة التقييم للجمهور، مما يمثل خطوة كبيرة نحو تعزيز الشفافية في أبحاث الذكاء الاصطناعي وتطبيقات المعلومات الحيوية.
ثورة جديدة في علوم الحياة: تقديم BioAgent Bench لتقييم وكيل الذكاء الاصطناعي في المعلومات الحيوية
يقدم البحث الجديد BioAgent Bench، مجموعة تقييم مبتكرة لوكلاء الذكاء الاصطناعي في المهام الحيوية. تتناول الدراسة أداء هذه الوكلاء وتكشف عن تحديات ونجاحات مهمة في هذا المجال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
