Déployer un LLM local : checklist infra (GPU, VRAM, latence)

Vous voulez déployer un LLM en local pour des raisons de confidentialité, de coût ou de souveraineté ? C'est un choix de plus en plus courant, notamment en Suisse où la protection des données est une priorité. Mais attention : un projet de LLM local mal dimensionné peut rapidement devenir un gouffre financier ou un échec technique. Cette checklist complète vous aide à dimensionner votre infrastructure et éviter les erreurs classiques que nous observons régulièrement sur le terrain.

Réponse directe

Pour un LLM local type 7-14B paramètres, prévoyez minimum 24 Go de VRAM (RTX 4090 ou A10). Pour du 70B, il faut 2-4 GPU ou de la quantization agressive. Latence cible : TTFT < 500ms, génération > 30 tokens/s pour un usage interactif.

Ce que le dirigeant doit comprendre

Avant d'entrer dans les détails techniques, voici ce que vous devez savoir en tant que décideur :

Un LLM local nécessite du matériel spécifique : des cartes graphiques (GPU) avec beaucoup de mémoire vidéo (VRAM). Ce n'est pas un simple serveur classique.
Plus le modèle est "intelligent", plus il est gourmand : un modèle 70 milliards de paramètres est plus performant qu'un 7 milliards, mais coûte 10x plus cher en infrastructure.
Le dimensionnement dépend de l'usage : 5 utilisateurs simultanés vs 50, c'est un facteur 10 sur l'infrastructure.
Il existe des compromis qualité/coût : la "quantization" permet de faire tourner de gros modèles sur du matériel plus petit, avec une légère perte de qualité.

Budget indicatif : comptez EUR 8'000-15'000 pour un serveur capable de faire tourner un modèle 7B performant, EUR 30'000-80'000 pour un modèle 70B. Ces chiffres n'incluent pas l'intégration et la maintenance.

Checklist complète avant de commencer

1. Définir précisément le cas d'usage

Ces questions déterminent tout le reste du dimensionnement :

Type d'usage : chat interactif, batch processing, API interne ?
Nombre d'utilisateurs simultanés : 1, 5, 20, 100+ ?
Longueur de contexte : 2k, 8k, 32k tokens ?
Exigences de latence : temps réel ou différé acceptable ?

2. Choisir le modèle

Le modèle détermine les besoins en VRAM. Voir notre benchmark LLM locaux 2025 pour les comparatifs détaillés.

Modèle	VRAM (FP16)	VRAM (Q4)	Usage type
7B (Llama, Mistral)	~14 Go	~4-5 Go	Assistant interne, RAG
14B (Qwen)	~28 Go	~8 Go	Rédaction, raisonnement
32B	~64 Go	~18 Go	Cas complexes
70B (Llama)	~140 Go	~40 Go	Multi-GPU obligatoire

3. Dimensionner le GPU

Règle simple : VRAM nécessaire = poids du modèle + KV cache + overhead (~20%)

Options GPU courantes

RTX 4090 (24 Go) : ~EUR 2'000 — Idéal pour 7-14B quantisé
A10 (24 Go) : ~EUR 3'500 — Version datacenter, plus stable
A100 (40/80 Go) : ~EUR 15'000+ — Gros modèles, production
H100 (80 Go) : ~EUR 30'000+ — Performance maximale

Attention au KV cache

Le KV cache (mémoire pour le contexte) peut exploser avec de longs contextes ou plusieurs utilisateurs. Un modèle 7B qui "rentre" sur 24 Go peut saturer avec 5 sessions simultanées à 8k tokens.

4. Choisir le runtime d'inférence

llama.cpp : Simple, portable, CPU possible. Idéal pour POC.
vLLM : Batching optimisé, API OpenAI-compatible. Pour la prod.
TGI (Text Generation Inference) : Hugging Face, monitoring intégré.

→ Lire notre comparatif des runtimes

5. Configurer l'infrastructure

Serveur type (1 GPU 24 Go)

CPU : 16+ cores (AMD EPYC ou Intel Xeon)
RAM : 64 Go minimum (128 Go recommandé)
Stockage : SSD NVMe 1 To (modèles + logs)
Réseau : 10 Gbps si multi-GPU
Alimentation : prévoir 500-1000W par GPU

Refroidissement

Les GPU consomment beaucoup et chauffent. Prévoyez une climatisation adaptée (1 kW de GPU ≈ 1 kW de clim).

Checklist finale

☐ Cas d'usage défini (nb utilisateurs, contexte, latence)
☐ Modèle sélectionné + quantization choisie
☐ VRAM calculée (poids + KV cache + 20%)
☐ GPU dimensionné
☐ Runtime choisi (llama.cpp, vLLM, TGI)
☐ Serveur configuré (CPU, RAM, stockage)
☐ Alimentation et refroidissement validés
☐ Monitoring prévu (GPU utilization, TTFT, tokens/s)
☐ Sécurité réseau (accès API, authentification)
☐ Plan de backup et mise à jour modèle

Erreurs fréquentes à éviter

Voici les erreurs que nous observons régulièrement lors des déploiements LLM locaux :

Sous-estimer le KV cache : le modèle "rentre" en VRAM au démarrage, mais explose en production avec de longs contextes. Prévoyez toujours 20-30% de marge.
Oublier la concurrence : tester avec 1 utilisateur et déployer pour 20, c'est garantir des problèmes de performance. Faites des tests de charge réalistes.
Pas de monitoring : sans métriques (utilisation GPU, latence, tokens/s), impossible d'identifier les goulots d'étranglement et d'optimiser.
GPU gaming en datacenter : les RTX ne sont pas conçues pour tourner 24/7. Préférez les GPU datacenter (A10, A100, L40S) pour la fiabilité et le support.
Ignorer les mises à jour : les modèles évoluent vite. Prévoyez un process pour tester et déployer de nouvelles versions.
Négliger la sécurité : un LLM exposé sans authentification est une faille de sécurité majeure.

Recommandations par cas d'usage

Cas d'usage	Config recommandée	Budget estimé
POC / Tests internes (1-3 users)	RTX 4090 + Llama 3.1 8B Q4	EUR 5'000-8'000
Production PME (5-10 users)	A10 24GB + Llama 3.1 8B FP16	EUR 12'000-18'000
Production ETI (20-50 users)	2x A10 ou L40S + Llama 3.1 70B Q4	EUR 35'000-55'000
Usage intensif / Multi-tenant	A100 80GB ou cluster multi-GPU	EUR 80'000+

Prochaines étapes après le déploiement

Benchmark initial : mesurez la performance réelle (TTFT, tokens/s) sur vos cas d'usage
Tests utilisateurs : validez la qualité des réponses avec vos équipes métier
Optimisation progressive : ajustez les paramètres (batch size, contexte) selon les métriques
Documentation : documentez la configuration pour la maintenance future
Plan de scaling : anticipez la croissance de l'usage

"Un LLM local mal dimensionné coûte plus cher qu'une API cloud. Faites vos calculs avant d'investir — et n'hésitez pas à commencer petit avec un POC avant d'engager des sommes importantes."

Déployer un LLM local : checklist infra