معايير “ميتا” لنماذجها الجديدة من الذكاء الاصطناعي قد تكون مضللة

7 أبريل, 2025

حلّ “Maverick”، أحد نماذج الذكاء الاصطناعي الرائدة الجديدة التي أطلقتها شركة ميتا يوم السبت، في المرتبة الثانية بمنصة “LM Arena”، وهي اختبار يُجري فيه مُقيّمون بشريون مقارنة لمخرجات النماذج ويختارون أيًا منها يُفضّلونه، حسبما ذكرت قناة العربية.

لكن يبدو أن نسخة نموذج “Maverick” التي نشرتها “ميتا” على منصة “LM Arena” تختلف عن الإصدار المُتاح على نطاق واسع للمطورين.

وكما أشار العديد من باحثي الذكاء الاصطناعي على منصة إكس (تويتر سابقًا)، ذكرت “ميتا” في إعلانها أن “Maverick” على منصة “LM Arena” هو “إصدار تجريبي للدردشة.

لكن يكشف رسم بياني على موقع “Llama” الرسمي أن الاختبار الذي أجرته “ميتا” على منصة “LM Arena ” أُجري باستخدام نموذج “Llama 4 Maverick المحسن للمحادثة”، بحسب تقرير لموقع “TechCrunch” المتخصص في أخبار التكنولوجيا.

ولأسباب مُختلفة، لم يُعتبر اختبار منصة “LM Arena” يومًا المقياس الأكثر موثوقية لأداء نموذج الذكاء الاصطناعي. لكن شركات الذكاء الاصطناعي عمومًا لم تقم بتخصيص أو تحسين نماذجها لتحقيق نتائج أفضل على هذه المنصة أو على الأقل لم تعترف بذلك.

تكمن مشكلة تخصيص نموذج لمعيار، ثم حجبه، ثم إصدار نسخة “عادية” منه في صعوبة التنبؤ بدقة بأداء النموذج في سياقات معينة، فضلًا عن كونه أمرًا مضللًا, ويقدم المعيار المثالي -على الرغم من قلة كفايته- لمحة عامة عن نقاط قوة وضعف نموذج واحد عبر مجموعة من المهام.

وفي الواقع، لاحظ الباحثون على منصة إكس اختلافات واضحة في أداء نموذج “Maverick” المتاح للتنزيل عامة للمستخدمين مقارنة بالنموذج المُستضاف على منصة “LM Arena”. ويبدو أن إصدار “LM Arena” يستخدم الكثير من رموز الإيموجي، ويقدم إجابات مطولة للغاية.

7 أبريل, 2025