في عالم البيولوجيا الحديثة، تعتبر تحليل بيانات النسخ الجيني (transcriptomic data) من المهام الأساسية. لكن، غالبًا ما تعاني النماذج الحالية من عائق كبير: إما أنها تتعامل مع ملفات التعبير دون أن تنتج تفسيرات لغوية طبيعية، أو تقوم بالتفكير لغويًا دون الوصول المباشر إلى القياسات الكمية لبيانات الأومكس.
هنا يأتي دور نموذج OmicsLM، نموذج لغوي ضخم متعدد الأنماط (multimodal large language model) يربط بين ملفات البيانات الكمية لبيانات الأومكس (omics profiles) والمهام البيولوجية التي تتطلب لغة طبيعية. إذ يمثل هذا النموذج كل ملف تعبير نسخي كتعبير مضغوط ومستمر ضمن سياق النموذج، حيث يحافظ على إشارة التعبير الكمية مع إمكانية معالجة التعليمات بلغة طبيعية، وذكر الجينات بدقة، ومعالجة عينات بيولوجية متعددة في سياق واحد.
تدريب OmicsLM تم على أكثر من 5.5 مليون مثال تعليمي يتنوع بين 70 نوعًا من المهام، ويجمع بين مدخلات بيانات النسخ المستمرة، والبيانات التجريبية المعروضة عبر قوالب لغوية متعددة، بالإضافة إلى المعرفة البيولوجية والأسئلة والإجابات بصيغة النص الحر. تغطي هذه المجموعة أنواعًا من التطبيقات مثل رسم خرائط أنواع الخلايا، والتنبؤ بالتغيرات، والتنبؤ السريري، واستدلال المسارات، والإجابة عن الأسئلة البيولوجية المفتوحة.
ومع عدم وجود تقييمات قائمة لقياس قدرة النموذج على التفكير اللغوي الموجه عبر بيانات تعبير حقيقية، قدمنا معيار GEO-OmicsQA، الذي يهدف إلى اختبار كفاءة الإجابة عن الأسئلة البيولوجية متعددة العينات باستخدام بيانات دراسات التعبير الجيني الحقيقية. أثبتنا أن OmicsLM يستطيع استخدام ملفات التعبير مباشرة وأداء مهام مشابهة للنماذج المتخصصة في الأومكس على مستوى الملفات، بينما يتفوق على النماذج الخاصة بالأومكس والنماذج اللغوية العامة في التحليل البيولوجي المدفوع باللغة.
هل أنتم متحمسون لاكتشاف كيف يمكن لهذا النموذج تغيير وجه علم الأحياء؟ شاركونا آراءكم في التعليقات!
أولياء عقولنا: نموذج OmicsLM الثوري لتحليل بيانات الأومكس المتعددة!
نموذج OmicsLM يمثل ثورة في مجال علم الأحياء التحليلي، حيث يجسر الفجوة بين البيانات الكمية والتفسيرات اللغوية الطبيعية. هذا الابتكار يعيد تعريف كيفية تعاملنا مع بيانات الأومكس متعددة العينات بطريقة مبتكرة وعملية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
