Vous voulez déployer un LLM en local pour des raisons de confidentialité, de coût ou de souveraineté ? C'est un choix de plus en plus courant, notamment en Suisse où la protection des données est une priorité. Mais attention : un projet de LLM local mal dimensionné peut rapidement devenir un gouffre financier ou un échec technique. Cette checklist complète vous aide à dimensionner votre infrastructure et éviter les erreurs classiques que nous observons régulièrement sur le terrain.
Réponse directe
Pour un LLM local type 7-14B paramètres, prévoyez minimum 24 Go de VRAM (RTX 4090 ou A10). Pour du 70B, il faut 2-4 GPU ou de la quantization agressive. Latence cible : TTFT < 500ms, génération > 30 tokens/s pour un usage interactif.
Ce que le dirigeant doit comprendre
Avant d'entrer dans les détails techniques, voici ce que vous devez savoir en tant que décideur :
- Un LLM local nécessite du matériel spécifique : des cartes graphiques (GPU) avec beaucoup de mémoire vidéo (VRAM). Ce n'est pas un simple serveur classique.
- Plus le modèle est "intelligent", plus il est gourmand : un modèle 70 milliards de paramètres est plus performant qu'un 7 milliards, mais coûte 10x plus cher en infrastructure.
- Le dimensionnement dépend de l'usage : 5 utilisateurs simultanés vs 50, c'est un facteur 10 sur l'infrastructure.
- Il existe des compromis qualité/coût : la "quantization" permet de faire tourner de gros modèles sur du matériel plus petit, avec une légère perte de qualité.
Budget indicatif : comptez EUR 8'000-15'000 pour un serveur capable de faire tourner un modèle 7B performant, EUR 30'000-80'000 pour un modèle 70B. Ces chiffres n'incluent pas l'intégration et la maintenance.
Checklist complète avant de commencer
1. Définir précisément le cas d'usage
Ces questions déterminent tout le reste du dimensionnement :
- Type d'usage : chat interactif, batch processing, API interne ?
- Nombre d'utilisateurs simultanés : 1, 5, 20, 100+ ?
- Longueur de contexte : 2k, 8k, 32k tokens ?
- Exigences de latence : temps réel ou différé acceptable ?
2. Choisir le modèle
Le modèle détermine les besoins en VRAM. Voir notre benchmark LLM locaux 2025 pour les comparatifs détaillés.
| Modèle | VRAM (FP16) | VRAM (Q4) | Usage type |
|---|---|---|---|
| 7B (Llama, Mistral) | ~14 Go | ~4-5 Go | Assistant interne, RAG |
| 14B (Qwen) | ~28 Go | ~8 Go | Rédaction, raisonnement |
| 32B | ~64 Go | ~18 Go | Cas complexes |
| 70B (Llama) | ~140 Go | ~40 Go | Multi-GPU obligatoire |
3. Dimensionner le GPU
Règle simple : VRAM nécessaire = poids du modèle + KV cache + overhead (~20%)
Options GPU courantes
- RTX 4090 (24 Go) : ~EUR 2'000 — Idéal pour 7-14B quantisé
- A10 (24 Go) : ~EUR 3'500 — Version datacenter, plus stable
- A100 (40/80 Go) : ~EUR 15'000+ — Gros modèles, production
- H100 (80 Go) : ~EUR 30'000+ — Performance maximale
Attention au KV cache
Le KV cache (mémoire pour le contexte) peut exploser avec de longs contextes ou plusieurs utilisateurs. Un modèle 7B qui "rentre" sur 24 Go peut saturer avec 5 sessions simultanées à 8k tokens.
4. Choisir le runtime d'inférence
- llama.cpp : Simple, portable, CPU possible. Idéal pour POC.
- vLLM : Batching optimisé, API OpenAI-compatible. Pour la prod.
- TGI (Text Generation Inference) : Hugging Face, monitoring intégré.
→ Lire notre comparatif des runtimes
5. Configurer l'infrastructure
Serveur type (1 GPU 24 Go)
- CPU : 16+ cores (AMD EPYC ou Intel Xeon)
- RAM : 64 Go minimum (128 Go recommandé)
- Stockage : SSD NVMe 1 To (modèles + logs)
- Réseau : 10 Gbps si multi-GPU
- Alimentation : prévoir 500-1000W par GPU
Refroidissement
Les GPU consomment beaucoup et chauffent. Prévoyez une climatisation adaptée (1 kW de GPU ≈ 1 kW de clim).
Checklist finale
- ☐ Cas d'usage défini (nb utilisateurs, contexte, latence)
- ☐ Modèle sélectionné + quantization choisie
- ☐ VRAM calculée (poids + KV cache + 20%)
- ☐ GPU dimensionné
- ☐ Runtime choisi (llama.cpp, vLLM, TGI)
- ☐ Serveur configuré (CPU, RAM, stockage)
- ☐ Alimentation et refroidissement validés
- ☐ Monitoring prévu (GPU utilization, TTFT, tokens/s)
- ☐ Sécurité réseau (accès API, authentification)
- ☐ Plan de backup et mise à jour modèle
Erreurs fréquentes à éviter
Voici les erreurs que nous observons régulièrement lors des déploiements LLM locaux :
- Sous-estimer le KV cache : le modèle "rentre" en VRAM au démarrage, mais explose en production avec de longs contextes. Prévoyez toujours 20-30% de marge.
- Oublier la concurrence : tester avec 1 utilisateur et déployer pour 20, c'est garantir des problèmes de performance. Faites des tests de charge réalistes.
- Pas de monitoring : sans métriques (utilisation GPU, latence, tokens/s), impossible d'identifier les goulots d'étranglement et d'optimiser.
- GPU gaming en datacenter : les RTX ne sont pas conçues pour tourner 24/7. Préférez les GPU datacenter (A10, A100, L40S) pour la fiabilité et le support.
- Ignorer les mises à jour : les modèles évoluent vite. Prévoyez un process pour tester et déployer de nouvelles versions.
- Négliger la sécurité : un LLM exposé sans authentification est une faille de sécurité majeure.
Recommandations par cas d'usage
| Cas d'usage | Config recommandée | Budget estimé |
|---|---|---|
| POC / Tests internes (1-3 users) | RTX 4090 + Llama 3.1 8B Q4 | EUR 5'000-8'000 |
| Production PME (5-10 users) | A10 24GB + Llama 3.1 8B FP16 | EUR 12'000-18'000 |
| Production ETI (20-50 users) | 2x A10 ou L40S + Llama 3.1 70B Q4 | EUR 35'000-55'000 |
| Usage intensif / Multi-tenant | A100 80GB ou cluster multi-GPU | EUR 80'000+ |
Prochaines étapes après le déploiement
- Benchmark initial : mesurez la performance réelle (TTFT, tokens/s) sur vos cas d'usage
- Tests utilisateurs : validez la qualité des réponses avec vos équipes métier
- Optimisation progressive : ajustez les paramètres (batch size, contexte) selon les métriques
- Documentation : documentez la configuration pour la maintenance future
- Plan de scaling : anticipez la croissance de l'usage
"Un LLM local mal dimensionné coûte plus cher qu'une API cloud. Faites vos calculs avant d'investir — et n'hésitez pas à commencer petit avec un POC avant d'engager des sommes importantes."