أطلقت شركة OpenAI (أوبن ايه آي) نموذج الذكاء الاصطناعي الجديد GPT-4o (جي بي تي – فور أو) وهو إصدار مماثل لنموذج GPT-4، لكنه يأتي بقدرات أكثر”GPT-4o هو النموذج الجديد من ChatGPT .. يتيح تحليل ملامح وجوه البشر وقراءة المشاعر وترجمة مجموعة متداخلة من الأصوات بلغات مختلفة.
تطوراً في معالجة النصوص والصوت والمواد المرئية.
الإصدار الجديد سيكون متاحًا لجميع المستخدمين مجاناً، وليس مدفوعًا أو مخصصًا لقطاع الأعمال فقط كما هو الحال مع GPT-4 الذي أطلقته الشركة العام الماضي.
(جي بي تي – فور أو) يتميز بقدرات متطورة في التعامل مع النصوص المكتوبة والأوامر الصوتية، وكذلك فهم وإدراك ما تراه كاميرا الهواتف الذكية. كما يمكنه فهم الأصوات المتداخلة لمجموعة متحدثين بلغات مختلفة، والترجمة المباشرة وتحليل ملامح وجوه البشر.
ماذا يعني الإصدار الجديد؟
الحرف o في GPT-4o يرمز إلى “omni” أو معرفة كل شيء، ويسمح بالتعامل مع 50 لغة مختلفة مع تحسين السرعة والجودة، وسيكون متاحاً أيضاً عبر واجهة برمجة تطبيقات OpenAI مما يتيح للمطورين البدء في إنشاء التطبيقات باستخدام النموذج الجديد.
وشملت التحديثات إصداراً لسطح المكتب من ChatGPT، إلى جانب واجهة مستخدم محدثة، وهي أحدث جهود الشركة لتوسيع استخدام برنامجها الذي أحدث ضجة في عالم الذكاء الاصطناعي. وتخطط الشركة للسماح للمستخدمين بإجراء محادثة فيديو مع ChatGPT.
أداة مجانية.. وأكثر سرعة
وقالت رئيسة التكنولوجيا في الشركة ميرا موراتي إن التحديث الذي أصدرته لنموذج الذكاء الاصطناعي يجعل GPT-4 متاحاً للجميع بشكل مجاني، كاشفة أن النموذج الجديد GPT-4o سيكون أسرع بكثير مع إمكانات محسنة في التفاعل مع النصوص والفيديو والصوت.
وأضافت موراتي: “هذه هي المرة الأولى التي نخطو فيها خطوة كبيرة إلى الأمام عندما يتعلق الأمر بسهولة الاستخدام”.
وتدعم مايكروسوفت شركة “أوبن إيه آي”، وقدرت قيمتها بأكثر من 80 مليار دولار من قبل المستثمرين. وتواجه ضغوطا للبقاء على قمة سوق الذكاء الاصطناعي التوليدي مع منافسة خصوصًا من جوجل.
قدرات صوتية جبارة
وأظهر أعضاء فريق OpenAI القدرات الصوتية للنموذج الجديد، إذ طلبوا منه- مثلا- المساعدة في تهدئة شخص ما قبل إلقاء خطاب عام.
وقال مارك تشين، الباحث في OpenAI، إن النموذج قادر على إدراك مشاعر البشر، مضيفاً أن النموذج يمكنه أيضاً التعامل مع المستخدمين الذين يقاطعونه.
وطلب الفريق التقني أيضاً تحليل تعبيرات وجه المستخدم للتعليق على المشاعر التي قد يمر بها هذا الشخص.
وتخطط الشركة لاختبار الوضع الصوتي في الأسابيع المقبلة، مع إمكانية وصول المشتركين إلى ChatGPT Plus. كما أن النموذج الجديد يمكنه الاستجابة للمطالبات الصوتية للمستخدمين في أقل من 232 مللي ثانية، وهو مشابه لوقت الاستجابة البشرية في المحادثة.
تقدم في إمكانيات الترجمة
كما أن نموذج OpenAI الجديد يمكن أن يعمل كمترجم، حتى إذا كان شخصان يتحدثان لغتين مختلفتين في الوقت ذاته فإنه يترجم لكل منهما بشكل صحيح.
كذلك، يستطيع النموذج الجديد حل المعادلات الرياضية والمساعدة في كتابة التعليمات البرمجية. ليعد بذلك من أكبر إعلانات الشركة منذ إطلاق ChatGPT Enterprise في أغسطس 2023، وهي فئة الأعمال الخاصة بروبوتات الدردشة المدعومة بالذكاء الاصطناعي.
وفي مارس الماضي أعلنت “أوبن إيه آي” عن أداة جديدة تسمى “سورا” – Sora – لإنشاء مقاطع فيديو واقعية ومتخيلة تصل مدتها إلى دقيقة واحدة بمجرد إدخال طلب نصي.
“سورا” تتيح إنتاج فيديو بجودة عالية وبالأمر المباشر، كما يمكن إنشاء مشاهد معقدة تضم شخصيات عدة وأنواعًا محددة من الحركات وتفاصيل دقيقة.
يمكنك قراءة سلسلة موضوعات “مينابلوم” عن الذكاء الاصطناعي: