هندسة Creative Ventures٢٢ يناير ٢٠٢٦١٠ دقائق قراءة

تقييم LLM: دليل عملي لوكلاء الإنتاج

معظم الفِرَق لا تتجاوز تقييمات vibes-based. هذه منصّة التقييم التي نُشغّلها على كلّ وكيل إنتاج — مجموعات ذهبية، تسجيل ثلاثي الطبقات، ومتى تتوقّف عن إضافة التغطية.

لوحة تقييم LLM — المجموعة الذهبية وطبقات التسجيل

كلّ فريق نتحدّث إليه يُشغّل شكلاً من تقييم LLM. معظمهم يُشغّلونه بشكل خاطئ. عادةً المشكلة ليست النموذج — بل القياس. هذا هو دليل تقييم LLM الذي نُشغّله على كلّ وكيل إنتاج، مجرّداً من الأجزاء التي تبدو جميلة في المؤتمرات فقط.

ابدأ بمجموعة ذهبية، لا بمقياس

أوّل قِطعة في أيّ تقييم LLM هي ٤٠ مثالاً منتقىً يدوياً تُمثّل شكل حركة المرور. لا ٤٠٠، ولا ٤٬٠٠٠ — ٤٠. صغيرة بحيث يقرأها إنسان فعلاً، كبيرة بما يكفي لالتقاط انحدارات الفئة. كلّ بَق يظهر في الإنتاج يذهب إلى المجموعة الذهبية.

مجموعة ذهبية LLM — أمثلة تقييم منتقاة يدوياً — المجموعة الذهبية — ٤٠ مثالاً، فقرة تعليق لكلّ منها، ولكلٍّ منها مالك بشريّ.

نموذج التسجيل ثلاثي الطبقات لوكلاء LLM

نُسجّل كلّ استجابة وكيل في ثلاث طبقات. قيود صلبة — هل استدعى الأداة الصحيحة، هل المخرج يصدّق المخطّط. الصحّة — للمهامّ القابلة للتحقّق، هل الإجابة صحيحة فعلاً. الحكم — هل قيّم نموذج ثانٍ الاستجابة كقابلة للاستخدام. لا ترجيح بين الطبقات: الفشل في أيّها فشل.

متى تتوقّف عن التقييم وتبدأ بالإنصات للإنتاج

المزيد من التقييم ليس دوماً أفضل. حين يجتاز الوكيل المجموعة الذهبية >٩٥٪، الانحدار التالي سيأتي على الأرجح من فئة لم تتوقّعها. تلك هي نقطة التوقّف عن إضافة التغطية والبدء بإضافة القياس من الإنتاج.

“منصّة التقييم دالة قسرية لفهمك منتجك. إن لم تقدر على كتابة الاختبار — فأنت لا تعرف الميزة بما يكفي لإطلاقها.”

— مذكّرة هندسية داخلية

ابدأ بمجموعة ذهبية، لا بمقياس

نموذج التسجيل ثلاثي الطبقات لوكلاء LLM

متى تتوقّف عن التقييم وتبدأ بالإنصات للإنتاج

بقيتأسئلة؟

اشتركوا للتحديثات

بقيت
أسئلة؟