هندسة Creative Ventures١٠ دقائق قراءة
تقييم LLM: دليل عملي لوكلاء الإنتاج
معظم الفِرَق لا تتجاوز تقييمات vibes-based. هذه منصّة التقييم التي نُشغّلها على كلّ وكيل إنتاج — مجموعات ذهبية، تسجيل ثلاثي الطبقات، ومتى تتوقّف عن إضافة التغطية.

كلّ فريق نتحدّث إليه يُشغّل شكلاً من تقييم LLM. معظمهم يُشغّلونه بشكل خاطئ. عادةً المشكلة ليست النموذج — بل القياس. هذا هو دليل تقييم LLM الذي نُشغّله على كلّ وكيل إنتاج، مجرّداً من الأجزاء التي تبدو جميلة في المؤتمرات فقط.
ابدأ بمجموعة ذهبية، لا بمقياس
أوّل قِطعة في أيّ تقييم LLM هي ٤٠ مثالاً منتقىً يدوياً تُمثّل شكل حركة المرور. لا ٤٠٠، ولا ٤٬٠٠٠ — ٤٠. صغيرة بحيث يقرأها إنسان فعلاً، كبيرة بما يكفي لالتقاط انحدارات الفئة. كلّ بَق يظهر في الإنتاج يذهب إلى المجموعة الذهبية.

نموذج التسجيل ثلاثي الطبقات لوكلاء LLM
نُسجّل كلّ استجابة وكيل في ثلاث طبقات. قيود صلبة — هل استدعى الأداة الصحيحة، هل المخرج يصدّق المخطّط. الصحّة — للمهامّ القابلة للتحقّق، هل الإجابة صحيحة فعلاً. الحكم — هل قيّم نموذج ثانٍ الاستجابة كقابلة للاستخدام. لا ترجيح بين الطبقات: الفشل في أيّها فشل.


متى تتوقّف عن التقييم وتبدأ بالإنصات للإنتاج
المزيد من التقييم ليس دوماً أفضل. حين يجتاز الوكيل المجموعة الذهبية >٩٥٪، الانحدار التالي سيأتي على الأرجح من فئة لم تتوقّعها. تلك هي نقطة التوقّف عن إضافة التغطية والبدء بإضافة القياس من الإنتاج.
“منصّة التقييم دالة قسرية لفهمك منتجك. إن لم تقدر على كتابة الاختبار — فأنت لا تعرف الميزة بما يكفي لإطلاقها.”
