كشفت شركة OpenAI عن إصدارين جديدين من نماذجها المتقدمة
كشفت شركة OpenAI عن إصدارين جديدين من نماذجها المتقدمة تحت اسم “o3” و”o4-mini”، واللذين يمثلان نقلة نوعية في قدرات التفكير المنطقي وتحليل البيانات عبر منصة ChatGPT.
ووصفت الشركة في بيان رسمي هذه النماذج بأنها “الأذكى حتى الآن”، لما توفره من أداء متقدم على صعيد الاستخدامات الأكاديمية والتطبيقات الواقعية.
وأضاف البيان أن نموذج o3 الأكثر تطوراً ضمن سلسلة “o” من OpenAI، إذ تم تدريبه على التفكير المتأني قبل إصدار الإجابات، مع تعزيز قدراته على استخدام الأدوات المختلفة داخل ChatGPT.
ويشمل ذلك البحث على الإنترنت، وتحليل الملفات والبيانات عبر Python، بالإضافة إلى تفسير المحتوى البصري، وتوليد الصور عند الحاجة.
ويتمتع النموذج بقدرة محسّنة على اتخاذ قرارات بشأن الأداة المناسبة للاستخدام بحسب نوع السؤال وتعقيده، ما يسمح له بتقديم إجابات دقيقة ومتعمقة خلال وقت لا يتجاوز الدقيقة الواحدة.
ويأتي هذا التطوير في إطار سعي الشركة إلى تمكين ChatGPT من تنفيذ مهام متعددة بشكل مستقل.
ويمتاز نموذج o3 بأدائه القوي في ميادين مثل البرمجة، والرياضيات، والعلوم، والتعرف البصري، إذ حقق نتائج قياسية على اختبارات مثل Codeforces وSWE-bench وMMMU.
كما قلّص النموذج نسبة الأخطاء الكبرى بنسبة 20% مقارنة بنموذج o1 السابق، لا سيما في المهام المعقدة المرتبطة بمجالات الأعمال والاستشارات والهندسة.
أما نموذج o4-mini، فقد صُمم ليكون نموذجاً مدمجاً يتميز بالكفاءة العالية من حيث التكلفة وسرعة التنفيذ، مع تقديم أداء مميز في الرياضيات والبرمجة والمهام البصرية.
ويُعد النموذج الأفضل في اختبارات AIME لعامي 2024 و2025، كما تفوق على النسخة المصغّرة السابقة o3-mini، حتى في المهام غير المرتبطة بالتخصصات العلمية.
تعزيز التعلّم وتوسيع التفكير “البصري”
واصلت OpenAI توسيع نطاق استخدام التعلّم المعزز في تطوير نموذج o3، إذ لاحظت أن العلاقة بين زيادة القدرات الحسابية وتحسن الأداء التي شوهدت سابقاً في نماذج GPT ما زالت قائمة في هذا السياق.
ومن خلال مضاعفة القدرة الحسابية أثناء التدريب والتفكير في وقت التنفيذ، نجح النموذج في تحقيق مكاسب أداء واضحة، ما يؤكد أن السماح للنموذج بالتفكير لفترات أطول ينعكس مباشرة على جودة النتائج.
وتم تدريب كلا النموذجين أيضاً على استخدام الأدوات من خلال التعلّم المعزز، ليس فقط من ناحية “كيفية” استخدام الأداة، بل “متى ولماذا” يتم استخدامها.
هذه القدرة الاستراتيجية في اختيار الأدوات بناءً على النتائج المرجوة، تمنح النماذج مرونة أكبر في التعامل مع السيناريوهات المعقدة، خاصة في مجالات التفكير البصري وسير العمل متعدد المراحل.
ولأول مرة، بات بإمكان هذه النماذج دمج الصور بشكل مباشر في سلسلة تفكيرها، فهي لا “تشاهد” الصور فحسب، بل “تفكر بها”، ما…جة الصور التي يحمّلها المستخدم باستخدام أدوات مدمجة، ما يسمح لها بقص الصورة أو تكبيرها أو تدويرها، إلى جانب تنفيذ عمليات معالجة بصرية أخرى، دون الحاجة إلى نماذج متخصصة خارجية.
وتُعد القدرة البصرية المعزّزة في ChatGPT عنصراً محورياً في حل المشكلات الأكثر تعقيداً، إذ تمكّنه من تحليل الصور بدقة وموثوقية أعلى من أي وقت مضى.
كما يمكن للنموذج الدمج بسلاسة بين التفكير التحليلي المتقدم واستخدام أدوات مثل البحث عبر الإنترنت والتعديل البصري للصور- بما في ذلك التكبير، والقص، والتدوير، وتحسين جودة الصور- للوصول إلى استنتاجات حتى من الصور غير المثالية.
على سبيل المثال، يمكن للمستخدم تحميل صورة تحتوي على مسألة اقتصادية للحصول على شرح مفصّل خطوة بخطوة، أو إرسال لقطة شاشة لخطأ برمجي ليقوم النموذج بتحديد السبب الجذري للمشكلة بسرعة.
ويمثل هذا النهج محوراً جديداً في توسيع نطاق المعالجة الحاسوبية في وقت التنفيذ، من خلال الدمج المتناغم بين التحليل البصري والنصي، ما يُترجم إلى أداء متفوق في اختبارات متعددة الوسائط، ويُمهّد الطريق لتفكير متعدد الوسائط أكثر شمولاً.
توفر النماذج الحديثة تجربة تفاعلية أكثر سهولة عبر الصور، إذ يمكن للمستخدم التقاط صورة وطرح سؤال عليها دون القلق بشأن موضع العناصر داخل الصورة، سواء كانت مقلوبة أو تحتوي على عدة مسائل في الوقت ذاته.
حتى وإن بدت بعض العناصر غير واضحة للوهلة الأولى، فإن النموذج قادر على تكبير الصورة وتحديد التفاصيل بدقة أكبر.
تحديات حاضرة
رغم التقدّم اللافت، ما زالت هناك بعض التحديات التي تواجه “التفكير بالصور”، منها أن سلاسل التفكير الطويلة بشكل مفرط، نتيجة لاستدعاء أدوات أو عمليات بصرية غير ضرورية، كذلك مازالت توجد أخطاء في الإدراك البصري قد تؤدي إلى تفسيرات خاطئة رغم سير عملية التفكير بشكل سليم.
كذلك اعترفت الشركة بوجود تذبذب في موثوقية النتائج عند تجربة نفس المهمة أكثر من مرة، بسبب اختلاف آليات التحليل البصري، ومع ذلك، تُعد نماذج o3 وo4-mini من OpenAI نقلة بارزة في تطوير القدرات البصرية للذكاء الاصطناعي، إذ تقدم دقة عالية في فهم الصور، وتمكن من حل مسائل كانت تعتبر خارج نطاق الإمكانات التقنية في السابق.
تتوفر النماذج الجديدة للمشتركين في باقات استخدام ChatGPT Pro وChatGPT Plus وباقات الفرق ChatGPT Teams، بجانب توفر نموذج o4 mini الخفيف لمستخدمي النسخة المجانية من المنصة الذكية عبر تفعيل ميزة التفكيل Think في مربع الكتابة قبل إرسال استفساراتهم.