في عالم الذكاء الاصطناعي، تتطور أنظمة ترجمة الكلام بسرعة، حيث تشمل الترجمة من الكلام إلى نص (Speech-to-Text Translation - S2TT) ومن الكلام إلى كلام (Speech-to-Speech Translation - S2ST) بالإضافة إلى الترجمة غير المتصلة بالإنترنت (Offline) والترجمة المباشرة (Streaming Generation). لكن، تقييم هذه الأنظمة كان دائماً يتجاوز طريقة واحدة، مما أحدث صعوبة في مقارنة الأنظمة بشكل شامل.

لتجاوز هذه العقبة، تم تقديم OpenSTBench، وهو إطار تقييم مبتكر يجمع بين مختلف جوانب جودة ترجمة الكلام في نظام موحد. هذا الإطار يتيح تقييم كل من نظامي S2TT و S2ST في بيئات العمل الغير متصلة بالإنترنت والمباشرة، حيث يقوم بتقييم جودة الترجمة، جودة الكلام، الحفاظ على هوية المتحدث، الحفاظ على العواطف، والوفاء بالقياسات الزمانية، بالإضافة إلى التأخير الزمني.

من خلال التجارب التي تم تنفيذها على أنظمة ترجمة الكلام المعبرة، وُجد أن الأنظمة ذات الجودة العالية في الترجمة قد تختلف بشكل كبير في جودة الكلام والزمن كذلك. يقدم OpenSTBench بروتوكولاً قابلاً للتكرار لتحليل هذه الفروقات متعددة الأبعاد، مما يسهل المقارنات التطبيقية بين أنظمة ترجمة الكلام.

لمن يرغب في استكشاف هذا الإطار المبتكر، يمكن العثور على الشيفرة المصدرية ومجموعات البيانات على موقع GitHub.