في خطوة مثيرة تعكس الابتكارات المستمرة في مجال الذكاء الاصطناعي، أطلقت OpenAI ثلاثة نماذج صوتية متطورة عبر واجهة برمجة التطبيقات (API) الخاصة بها، وهي: GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper. هذه النماذج مصممة خصيصًا لتعزيز تجربة المطورين وتمكينهم من بناء تطبيقات جديدة تعتمد على التعرف الصوتي والتفاعل الحي.
يعمل النموذج GPT-Realtime-2 كمساعد ذكاء اصطناعي يمكن استخدامه لتحسين التفاعل الصوتي في التطبيقات، مما يزيد من فعالية النظام في معالجة الصوت الحي واستنتاج المعلومات. بينما يسهم النموذج GPT-Realtime-Translate في تمكين الترجمة الصوتية الفورية عبر أكثر من 70 لغة، مما يسهل التواصل بين الثقافات المختلفة.
أما النموذج الثالث، GPT-Realtime-Whisper، فهو يوفر إمكانية التفريغ الصوتي المباشر، ما يسهل على المطورين تحويل الصوت إلى نص بسهولة وسرعة.
مع هذه الابتكارات، يصبح من الممكن الآن بناء روبوتات محادثة أكثر ذكاءً، وتطوير أنظمة مترجمة تتجاوز حدود اللغة، وتقديم تجارب مستخدم أعلى تكاملًا مع تقنية الذكاء الاصطناعي.
ما رأيكم في هذه التطورات المبهرة؟ هل تعتقدون أنها ستغير طريقة تفاعلنا مع التكنولوجيا؟ شاركونا آراءكم في التعليقات!
ثورة في عالم الصوت: OpenAI تطلق ثلاثة نماذج صوتية حديثة لتحسين تجربة المطورين!
أطلقت OpenAI ثلاث نماذج صوتية جديدة، تشمل GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper، لتعزيز قدرات المطورين في مجال الصوت المباشر. هذه النماذج توسع إمكانيات التفاعل الصوتي وترجمة الكلام بين 70 لغة.
المصدر الأصلي:مارك تيك بوست
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
