في عالم التحليل الجيني، يعد التجميع (Clustering) عنصراً أساسياً في تحليل تسلسل RNA الخلوي (scRNA-seq)؛ إذ يساعد في تحديد تجمعات الخلايا ويفكك تعقيدات الأنسجة بشكل فعال. ومع ذلك، تعاني الطرق الحالية من تجاهل الوظائف البيولوجية الفطرية التي تمثلها الجينات، ما يسبب عدم توافق مع طبيعة المعلومات الحيوية.

ونظراً لتلك التحديات، يبرز إطار العمل الجديد المسمى scLLM-DSC، والذي يعزّز من قدرات النماذج اللغوية الضخمة (Large Language Models) بأسلوب مبتكر لتقديم أيقونة جديدة في التجميع. فبدلاً من الاعتماد فقط على الأنماط الإحصائية الرقمية، يُطوّر هذا الإطار تمثيلاً مبنياً على المعرفة من خلال دمج منظورين:

1. **منظور المعرفة المدفوعة**: يستند إلى المعلومات الجينية من قاعدة بيانات NCBI وتمثيلات Cell2Sentence.
2. **منظور الطوبولوجيا الواعية**: يعتمد على مُشفر موجه بواسطة رسم بياني لاستخراج العلاقات الهيكلية بين النتائج.

الأهم من ذلك، يُقدم scLLM-DSC آلية محاذاة تباينية عبر الوسائط، لضمان التناسق بين الدلالات البيولوجية وميزات النسخ داخل مساحة خفية موحدة. في اختبارات شاملة، أظهر هذا النموذج أداءً رائعاً، حيث تفوق بشكل كبير على أحد عشر نموذجاً من الطراز الأول في دقة التجميع.

يعد scLLM-DSC بمثابة خطوة متقدمة لفهم التنوع البيولوجي المعقد من خلال الطريقة الجديدة والمبتكرة في ربط المعرفة الجينية بالتمثيلات الهيكلية، مما يمهد الطريق لمستقبل واعد في بحوث علوم الحياة.