في عصر الذكاء الاصطناعي، أصبحت الأنظمة اللغوية الكبيرة (LLMs) عنصرًا أساسيًا في معالجة المهام المتعلقة بالمواد الكيميائية والجزيئات. ومع تزايد استخدامها، يبقى السؤال المحوري: ما هو الشكل الأفضل لتمثيل الجزيئات؟ في دراسة تجريبية رائدة، قام الباحثون بإجراء تقييم منهجي لمدى كفاءة الأنظمة اللغوية الكبيرة في تسع تمثيلات جزيئية وثمان مهام كيميائية.

تشمل الدراسة 16 نموذجًا من أنظمة اللغة الكبيرة (LLMs) عبر خمس عائلات نماذج، بما في ذلك نماذج قادرة على التفكير وأخرى غير قادرة على ذلك، بالإضافة إلى نماذج متخصصة في الكيمياء. أظهرت النتائج أن أداء النماذج يعتمد بشكل كبير على نوع التمثيل المستخدم، حيث لم يكن هناك تمثيل واحد يحقق الانتصار في جميع المهام.

من بين التمثيلات، كان التمثيل الذي يسمى CML هو الأفضل، يليه MolJSON، ثم InChI، وأخيرًا SMILES التقليدي. لقد أظهرت الدراسة أيضًا أن تمثيلات النصوص ذات الهيكل الواضح (CML وMolJSON) تتفوق في المهام التي تتطلب هيكلية، بينما سيطرت تمثيلات IUPAC في المهام الدلالية، وكانت الأفضل في استرجاع الجزيئات لجميع النماذج. على الرغم من الانتشار الواسع لنسخ SMILES، فإن أدائها لم يكن مثاليًا دائمًا.

تشير النتائج إلى أن النماذج المخصصة للكيمياء تحقق أداء جيدًا مع تمثيلات SMILES، لكن مع منحى كبير للانخفاض عند استخدام التمثيلات الهيكلية، مما يشير إلى أن التقييم القائم فقط على SMILES قد يكافئ التخصص غير القابل للتعميم. باستخدام LLM كنموذج للحكم، وجد الباحثون أن تمثيل IUPAC ينتج أعلى نسبة من الجزيئات الصحيحة.

إن دراسة الفروق في الترميز بين التمثيلات المختلفة داخل النموذج توفر رؤى مثيرة، حيث تُظهر أن التمثيلات الهيكلية تحتاج إلى مزيد من الاهتمام. تدعو هذه النتائج إلى أهمية عدم الاعتماد على تقييم واحد للتمثيلات ويوجه إلى أهمية تحديد التمثيل المناسب وفقًا للمهام الكيميائية المختلفة.