أبريل 23, 2025

تساؤلات حول شفافية OpenAI بعد فجوة في نتائج نموذج o3 📊🤖

تواجه OpenAI موجة من الانتقادات بعد أن أظهرت نتائج مستقلة لنموذجها o3 أداء أقل بكثير مما زُعم سابقًا، مما أثار مخاوف بشأن الشفافية في صناعة الذكاء الاصطناعي.

عند الإعلان عن o3 في ديسمبر، قالت OpenAI إن النموذج تمكن من حل أكثر من 25٪ من أسئلة اختبار FrontierMath، في حين أن النماذج المنافسة لم تتجاوز . لكن نتائج Epoch AI المستقلة أظهرت أداءً أقرب إلى 10٪، ما أثار جدلاً حول طرق التقييم.

أوضحت Epoch أن الفجوة قد تعود إلى اختلاف الموارد الحسابية المستخدمة وإصدارات الاختبار. فبينما اعتمدت OpenAI على نسخة داخلية أقوى من النموذج، فإن الإصدار العام الأخير مصمم ليكون أسرع وأكثر ملاءمة للاستخدام اليومي، حسب موظفي OpenAI.

وأكدت مؤسسة ARC Prize أن النموذج العام يختلف عن النسخة التي اختبروها سابقًا، مما يدعم فكرة أن قوة المعالجة تؤثر بشكل كبير على الأداء.

ورغم هذا التفاوت، فإن نماذج OpenAI الأحدث — مثل o3-mini-high وo4-mini — تفوقت على o3 في نفس الاختبار، مع توقع إطلاق o3-pro قريبًا. ومع ذلك، تسلط الحادثة الضوء على الشكوك المتزايدة بشأن موثوقية معايير الذكاء الاصطناعي.

الجدل حول الاختبارات ليس بجديد، إذ تعرضت Epoch سابقًا لانتقادات لتأخرها في الكشف عن تمويل OpenAI لمشروع FrontierMath، والذي لم يكن معروفًا حتى للعديد من الباحثين المشاركين.

الرسالة واضحة: معايير الذكاء الاصطناعي مهمة — لكن يجب التعامل معها بحذر.

Share article