KPIs IA générative : mesurer qualité, coût, risque

"On ne peut pas améliorer ce qu'on ne mesure pas." Cette maxime de Peter Drucker s'applique parfaitement à l'IA générative. Trop d'entreprises déploient des systèmes IA sans définir de métriques claires, puis se demandent si leur investissement est rentable. Ce guide vous donne les KPIs essentiels pour piloter un système d'IA générative en production, comprendre ce qui fonctionne, et identifier ce qui doit être amélioré.

Réponse directe

Les 5 KPIs essentiels : (1) Taux de bonnes réponses, (2) TTFT (Time To First Token), (3) Coût par requête, (4) Taux de refus/erreur, (5) Satisfaction utilisateur (CSAT).

Pourquoi mesurer est indispensable

Un système IA en production sans KPIs, c'est comme conduire sans tableau de bord. Vous ne savez pas :

Si la qualité des réponses est acceptable ou se dégrade
Combien vous coûte réellement chaque interaction
Si les utilisateurs sont satisfaits ou abandonnent l'outil
Si le système a des problèmes de performance à certains moments
Quel est le ROI réel de votre investissement

Pour le dirigeant : les KPIs ne sont pas un luxe technique, ils sont la base pour démontrer la valeur de l'IA à votre comité de direction et justifier les investissements futurs.

Les 5 catégories de KPIs

Nous organisons les métriques en 5 catégories : qualité, performance, coût, risque, et utilisateur.

1. KPIs de qualité

Ces métriques mesurent si l'IA fait bien son travail.

1. Taux de bonnes réponses

Pourcentage de réponses correctes/utiles selon un jeu de test ou un feedback utilisateur.

Comment mesurer : évaluation humaine sur échantillon, ou LLM-as-judge
Cible typique : >80% pour un assistant, >95% pour du factuel

2. Taux d'hallucination

Fréquence des réponses factuellement incorrectes ou inventées.

Comment mesurer : comparaison avec sources de vérité (RAG)
Cible typique : <5% pour un usage critique

3. Pertinence du retrieval (RAG)

Le bon document est-il récupéré ? Mesurable par Recall@k, MRR.

KPIs de performance

4. TTFT (Time To First Token)

Temps entre la requête et le premier token de réponse. Critique pour l'UX.

Cible : <500ms pour du chat interactif
Mesurer le p50, p95, p99

5. Tokens par seconde

Vitesse de génération. Impact direct sur l'expérience utilisateur.

Cible : >30 tokens/s pour être fluide à la lecture

6. Disponibilité

Uptime du service. Objectif classique : 99.5%+

KPIs de coût

7. Coût par requête

Coût moyen d'une interaction (API + infra + compute).

Type	Coût typique
GPT-4o (1k tokens)	~$0.01-0.03
Claude 3.5 Sonnet	~$0.01-0.02
LLM local (8B)	~$0.001 (après amortissement)

8. Coût par utilisateur/mois

Coût total divisé par nombre d'utilisateurs actifs. Utile pour le business case.

KPIs de risque

9. Taux de refus

Pourcentage de requêtes où le système refuse de répondre (garde-fous).

Trop bas : garde-fous insuffisants
Trop haut : frustration utilisateur

10. Incidents de sécurité

Prompt injections réussies, fuites de données, comportements inattendus.

KPIs utilisateur

11. CSAT / NPS

Satisfaction déclarée par les utilisateurs (sondages).

12. Taux d'adoption

% d'utilisateurs cibles qui utilisent vraiment le système.

13. Requêtes par utilisateur

Fréquence d'utilisation — indicateur d'utilité perçue.

Tableau de bord type

Voici un exemple de tableau de bord synthétique pour un reporting mensuel :

Qualité	Bonnes réponses : 82% \| Hallucinations : 3%
Performance	TTFT p95 : 420ms \| 45 tokens/s
Coût	EUR 0.02/requête \| EUR 15/user/mois
Risque	Refus : 2% \| Incidents : 0
Adoption	78% actifs \| 12 req/user/jour

Comment mettre en place le suivi

Définir les KPIs prioritaires : commencez par 3-5 métriques clés, pas plus
Instrumenter le système : logger les requêtes, réponses, temps, coûts
Créer un jeu de test : 30-50 questions avec réponses attendues pour mesurer la qualité
Automatiser la collecte : scripts quotidiens pour agréger les métriques
Définir les alertes : seuils qui déclenchent une investigation (ex: hallucinations > 5%)
Reporting régulier : tableau de bord hebdomadaire ou mensuel selon la criticité

Erreurs fréquentes

Trop de KPIs d'un coup : mieux vaut 5 KPIs suivis rigoureusement que 20 KPIs ignorés
Mesurer sans agir : chaque KPI doit être actionnable (si X baisse, on fait Y)
Ignorer les métriques utilisateur : un système techniquement parfait mais non adopté est un échec
Pas de baseline : mesurez AVANT le déploiement pour pouvoir comparer

KPIs par type de projet

Type de projet	KPIs prioritaires
Chatbot support client	Taux résolution, CSAT, temps de réponse, taux escalade
Assistant recherche documentaire	Pertinence retrieval, taux hallucination, temps économisé
Génération de contenu	Taux de réécriture, temps de production, coût par contenu
Analyse de données	Exactitude des chiffres, temps d'analyse, adoption

"Commencez avec 3-5 KPIs. Ajoutez-en quand vous avez prouvé que vous pouvez agir sur les premiers. Un KPI que personne ne regarde est pire qu'inutile — il donne l'illusion du contrôle."

KPIs IA générative : mesurer ce qui compte