.@AnkythShukla a fait une distinction nette que la plupart des créateurs d'IA manquent. "Une évaluation, ça peut être n'importe quoi, non ? Si nous devions expliquer cela très simplement, cela pourrait être n'importe quel type de test. Cela pourrait être un test unitaire dans l'ancien langage. Cela pourrait juste être un comptage de mots ici. Ou dans sa forme la plus avancée, comme nous l'avons montré, cela peut être un juge LLM, qui réplique en quelque sorte une partie de cette intuition humaine que nous avons encodée dans ce prompt que nous avons vu." Cela reformule toute la conversation sur les évaluations d'IA. La plupart des équipes entendent "évaluations" et pensent à des pipelines complexes de LLM en tant que juges. Elles se sentent intimidées. Elles passent à côté. Elles expédient sans mesure. La réalité de cet épisode sur le podcast de @aakashgupta : > Une évaluation peut être aussi simple qu'une fonction de comptage de mots ou un test unitaire. La barre pour commencer est basse. Le coût de l'ignorer est élevé. > Un juge LLM est la forme avancée - encodant l'intuition humaine dans un prompt qui évalue les sorties de l'IA à grande échelle. > Le spectre va des vérifications de code déterministes à l'évaluation subjective de la qualité. Les deux comptent. Les deux importent. > Cela se rapporte directement à la raison pour laquelle les prototypes échouent à grande échelle. @AnkythShukla a identifié cinq raisons, mais deux se démarquent : Dérive des données : le produit a été construit pour une réalité. Les utilisateurs vivent dans une autre. Sans évaluations fonctionnant en continu, vous ne détectez jamais la divergence. Coût : le SaaS a un coût marginal proche de zéro par utilisateur. L'IA ne l'est pas. Chaque appel coûte de l'argent. Sans évaluations vous indiquant quels appels fonctionnent et lesquels sont gaspillés, les coûts explosent sans valeur proportionnelle. La conclusion : les évaluations d'IA ne sont pas un luxe de qualité. Elles sont l'infrastructure opérationnelle qui détermine si votre prototype devient un produit ou devient une statistique dans le taux d'échec de 95 %.