تشكل الجزيئات رسومات بيانية، لكن غالبًا ما يُطلب من نماذج اللغات الضخمة (LLMs) التفكير فيها على أنها سلاسل خطية. يُعتبر SMILES أكثر التمثيلات الجزيئية شيوعًا، حيث يقوم بضغط الذرات والروابط والفروع والحلقات في تسلسل مضغوط تُصبح فيه الطوبولوجيا ضمنية. ونتيجة لذلك، يُجبر نماذج اللغة على استعادة هيكل الجزيء قبل تنفيذ العملية الكيميائية المطلوبة.
في هذا السياق، تم تقديم ابتكار جديد يُدعى "مول كود" (MoleCode)، الذي يُعتبر لغة جزيئية واضحة وصديقة لنماذج اللغات الضخمة، حيث لا يحتاج إلى التدريب. وتمثيل كل مكونات الجزيء يتم ككيانات ذات نوع محدد مع معرفات دائمة وعلاقات واضحة. مما يجعل الطوبولوجيا الجزيئية قابلة للقراءة والتحرير والمراجعة داخل سياق اللغة، وبالتالي يُمكن النموذج من العمل على الهيكل بدلاً من استعادته من التركيب اللغوي.
توضح الدراسات أن هذا التحول في التمثيل يُحسن أداء نماذج اللغات الضخمة بشكل ملحوظ في المهام المتعلقة بالتفكير الجزيئي، التحرير، التوليد، والتحليل، خصوصًا عندما تكون الوصول إلى الهيكل أمرًا صعبًا، مثل في حالة الجزيئات غير المألوفة أو العمليات الحساسة للطوبولوجيا.
علاوة على ذلك، تُغير هذه التقنية كيفية تخصيص استنتاجات النماذج، حيث يتم تقليل المسارات الطويلة المخصصة لإعادة بناء الهيكل الضمني إلى استنتاجات أقصر وأكثر توجيهاً نحو الكيمياء عند التعامل مع الذرات والروابط الصريحة.
يساهم هذا الابتكار أيضًا في تحسين عمليات التعديل الموجهة نحو الخصائص، مما يحافظ على التشابه الهيكلي للمركبات الأصلية. كما أن نفس قواعد الجملة الخاصة بـ"العقد - الروابط - الرسومات" تمتد إلى ما وراء الجزيئات الصغيرة لتشمل البوليمرات، والهياكل ماركوش، والتحولات على غرار الآلية، والأبحاث العلمية الموزعة عبر النصوص والصور.
تُشير هذه النتائج إلى ضرورة أن يكون التواصل بين الكائنات العلمية ونماذج اللغات الضخمة أكثر تفاعلًا مع التركيب، حيث يجب أن تُعتبر التركيبة جزءًا من اللغة عندما يكون موضوع التفكير هو العلاقات.
كشف النقاب عن مول كود: ثورة الذكاء الهيكلي في نماذج اللغات الضخمة
تقدم مول كود (MoleCode) نموذج لغة ثوري يستخدم رسوم بيانية واضحة لتسهيل معالجة الجزيئات. هذه التقنية الجديدة تعزز دقة نماذج اللغات الضخمة في أداء المهام الكيميائية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
