"On ne peut pas améliorer ce qu'on ne mesure pas." Cette maxime de Peter Drucker s'applique parfaitement à l'IA générative. Trop d'entreprises déploient des systèmes IA sans définir de métriques claires, puis se demandent si leur investissement est rentable. Ce guide vous donne les KPIs essentiels pour piloter un système d'IA générative en production, comprendre ce qui fonctionne, et identifier ce qui doit être amélioré.
Réponse directe
Les 5 KPIs essentiels : (1) Taux de bonnes réponses, (2) TTFT (Time To First Token), (3) Coût par requête, (4) Taux de refus/erreur, (5) Satisfaction utilisateur (CSAT).
Pourquoi mesurer est indispensable
Un système IA en production sans KPIs, c'est comme conduire sans tableau de bord. Vous ne savez pas :
- Si la qualité des réponses est acceptable ou se dégrade
- Combien vous coûte réellement chaque interaction
- Si les utilisateurs sont satisfaits ou abandonnent l'outil
- Si le système a des problèmes de performance à certains moments
- Quel est le ROI réel de votre investissement
Pour le dirigeant : les KPIs ne sont pas un luxe technique, ils sont la base pour démontrer la valeur de l'IA à votre comité de direction et justifier les investissements futurs.
Les 5 catégories de KPIs
Nous organisons les métriques en 5 catégories : qualité, performance, coût, risque, et utilisateur.
1. KPIs de qualité
Ces métriques mesurent si l'IA fait bien son travail.
1. Taux de bonnes réponses
Pourcentage de réponses correctes/utiles selon un jeu de test ou un feedback utilisateur.
- Comment mesurer : évaluation humaine sur échantillon, ou LLM-as-judge
- Cible typique : >80% pour un assistant, >95% pour du factuel
2. Taux d'hallucination
Fréquence des réponses factuellement incorrectes ou inventées.
- Comment mesurer : comparaison avec sources de vérité (RAG)
- Cible typique : <5% pour un usage critique
3. Pertinence du retrieval (RAG)
Le bon document est-il récupéré ? Mesurable par Recall@k, MRR.
KPIs de performance
4. TTFT (Time To First Token)
Temps entre la requête et le premier token de réponse. Critique pour l'UX.
- Cible : <500ms pour du chat interactif
- Mesurer le p50, p95, p99
5. Tokens par seconde
Vitesse de génération. Impact direct sur l'expérience utilisateur.
- Cible : >30 tokens/s pour être fluide à la lecture
6. Disponibilité
Uptime du service. Objectif classique : 99.5%+
KPIs de coût
7. Coût par requête
Coût moyen d'une interaction (API + infra + compute).
| Type | Coût typique |
|---|---|
| GPT-4o (1k tokens) | ~$0.01-0.03 |
| Claude 3.5 Sonnet | ~$0.01-0.02 |
| LLM local (8B) | ~$0.001 (après amortissement) |
8. Coût par utilisateur/mois
Coût total divisé par nombre d'utilisateurs actifs. Utile pour le business case.
KPIs de risque
9. Taux de refus
Pourcentage de requêtes où le système refuse de répondre (garde-fous).
- Trop bas : garde-fous insuffisants
- Trop haut : frustration utilisateur
10. Incidents de sécurité
Prompt injections réussies, fuites de données, comportements inattendus.
KPIs utilisateur
11. CSAT / NPS
Satisfaction déclarée par les utilisateurs (sondages).
12. Taux d'adoption
% d'utilisateurs cibles qui utilisent vraiment le système.
13. Requêtes par utilisateur
Fréquence d'utilisation — indicateur d'utilité perçue.
Tableau de bord type
Voici un exemple de tableau de bord synthétique pour un reporting mensuel :
| Qualité | Bonnes réponses : 82% | Hallucinations : 3% |
| Performance | TTFT p95 : 420ms | 45 tokens/s |
| Coût | EUR 0.02/requête | EUR 15/user/mois |
| Risque | Refus : 2% | Incidents : 0 |
| Adoption | 78% actifs | 12 req/user/jour |
Comment mettre en place le suivi
- Définir les KPIs prioritaires : commencez par 3-5 métriques clés, pas plus
- Instrumenter le système : logger les requêtes, réponses, temps, coûts
- Créer un jeu de test : 30-50 questions avec réponses attendues pour mesurer la qualité
- Automatiser la collecte : scripts quotidiens pour agréger les métriques
- Définir les alertes : seuils qui déclenchent une investigation (ex: hallucinations > 5%)
- Reporting régulier : tableau de bord hebdomadaire ou mensuel selon la criticité
Erreurs fréquentes
- Trop de KPIs d'un coup : mieux vaut 5 KPIs suivis rigoureusement que 20 KPIs ignorés
- Mesurer sans agir : chaque KPI doit être actionnable (si X baisse, on fait Y)
- Ignorer les métriques utilisateur : un système techniquement parfait mais non adopté est un échec
- Pas de baseline : mesurez AVANT le déploiement pour pouvoir comparer
KPIs par type de projet
| Type de projet | KPIs prioritaires |
|---|---|
| Chatbot support client | Taux résolution, CSAT, temps de réponse, taux escalade |
| Assistant recherche documentaire | Pertinence retrieval, taux hallucination, temps économisé |
| Génération de contenu | Taux de réécriture, temps de production, coût par contenu |
| Analyse de données | Exactitude des chiffres, temps d'analyse, adoption |
"Commencez avec 3-5 KPIs. Ajoutez-en quand vous avez prouvé que vous pouvez agir sur les premiers. Un KPI que personne ne regarde est pire qu'inutile — il donne l'illusion du contrôle."