Introduction
Le capacity planning, ou planification de capacité, est une discipline clé en DevOps et en gestion d'infrastructures IT. Il consiste à anticiper les besoins futurs en ressources (CPU, mémoire, stockage, bande passante) pour éviter les surcharges système qui entraînent des downtimes coûteux – jusqu'à 10 000 € par minute selon Gartner. En 2026, avec l'essor de l'IA et des workloads cloud hybrides, cette pratique n'est plus optionnelle : elle permet d'optimiser les coûts (réduction de 30 % en moyenne via une provisionning juste-à-temps) tout en assurant une scalabilité fluide.
Pourquoi est-ce crucial pour un débutant ? Imaginez votre application e-commerce qui plante le Black Friday à cause d'un pic inattendu : le capacity planning transforme ces risques en opportunités de croissance. Ce tutoriel conceptuel, sans code, vous guide de A à Z : des fondations théoriques aux frameworks pratiques. À la fin, vous saurez évaluer vos capacités comme un pro, avec des checklists actionnables pour appliquer immédiatement dans votre équipe.
Prérequis
- Connaissances basiques en informatique : notions de CPU, RAM, stockage et réseau.
- Compréhension des workloads IT (applications web, bases de données).
- Accès à des outils de monitoring simples comme Google Analytics ou Prometheus (théorie seulement ici).
- Mindset analytique : capacité à projeter des tendances sur 6-12 mois.
Étape 1 : Comprendre les bases du Capacity Planning
Commencez par définir le scope. Le capacity planning repose sur trois piliers : performance actuelle, demande future et capacités disponibles. Analogie : c'est comme planifier un mariage – évaluez le nombre d'invités (demande), la taille de la salle (capacité) et le budget (coûts).
Métriques essentielles :
- Utilisation : % de CPU/RAM occupé (seuil alerte > 70 %).
- Throughput : requêtes/seconde traitées.
- Latence : temps de réponse (cible < 200 ms).
Exemple concret : Pour un site web avec 10 000 users/jour, mesurez le pic à 15h (2000 users/heure). Utilisez un tableur pour logger ces données sur 30 jours. Cela pose les fondations d'une analyse fiable.
Étape 2 : Modéliser la demande future
Passez à la prévision. Utilisez des modèles simples comme la loi de Little (Throughput = Utilisation / Latence) ou des tendances linéaires.
Méthodes beginner :
- Historique : Extrapolez les pics passés (ex. : +20 % croissance mensuelle → x1.2 en 3 mois).
- Business drivers : Intégrez les lancements produits ou campagnes marketing.
- Scénarios : Optimiste (x2 croissance), pessimiste (x0.5), nominal.
Exemple : Si votre app traite 100 req/s aujourd'hui avec 50 % CPU, prévoyez 150 req/s dans 6 mois → besoin de +50 % capacité. Créez un tableau Markdown :
| Scénario | Demande (req/s) | Capacité requise |
|---|---|---|
| ---------- | ----------------- | ------------------ |
| Nominal | 150 | 2 serveurs |
| Pessimiste | 200 | 3 serveurs |
Étape 3 : Évaluer les capacités actuelles et gaps
Analysez vos ressources existantes. Listez hardware/software : serveurs AWS EC2 (t3.medium : 2 vCPU, 4 GB RAM), conteneurs Kubernetes.
Checklist d'évaluation :
- Inventaire : Outils comme AWS Cost Explorer.
- Headroom : Marge de sécurité (20-30 % au-dessus du pic).
- Bottlenecks : Identifiez le premier limiteur (ex. : DB IOPS).
Exemple d'étude de cas : Une startup SaaS voit 80 % RAM saturée à 80 req/s. Gap : Ajouter 2 GB RAM ou scaler horizontalement (auto-scaling group). Calculez le ratio efficacité : Capacité / Demande = 1.3 (idéal >1.2).
Étape 4 : Élaborer le plan d'action
Synthétisez en roadmap. Priorisez : court terme (1-3 mois : optimisations), moyen (3-6 mois : scaling), long (6+ : migration cloud).
Framework simple (CAP Model adapté) :
- Constraint : Limites physiques.
- Availability : Redondance (N+1).
- Performance : Benchmarks.
Exemple : Plan pour 2026 :
- Q1 : Monitorer + alerter.
- Q2 : Ajouter 50 % capacité.
- Q3 : Tester load (JMeter virtuel).
Révisez trimestriellement pour itérer.
Étape 5 : Implémenter le monitoring continu
Le capacity planning est itératif. Installez un cycle PDCA (Plan-Do-Check-Act).
Outils théoriques :
- Grafana pour dashboards.
- AlertManager pour seuils.
Exemple : Dashboard avec graphiques CPU vs Temps, prédictions linéaires (Excel TREND). Ajustez si déviation >10 %.
Bonnes pratiques
- Toujours inclure une marge de 25-30 % : Anticipe les Black Swans comme les cyberattaques.
- Collaborer cross-team : Impliquez dev, ops et business pour des prévisions réalistes.
- Automatiser les prévisions : Passez à ML basique (ARIMA) après les bases.
- Documenter tout : Roadmap en Confluence avec revues mensuelles.
- Mesurer ROI : Trackez économies (ex. : -15 % cloud bill via right-sizing).
Erreurs courantes à éviter
- Sous-estimer les pics saisonniers : Ex. : Noël pour e-commerce → utilisez 2 ans d'historique.
- Ignorer les dépendances : Une DB lente bottleneck tout ; profilez en amont.
- Plan statique : Ne révisez pas → surprovisioning (coûts x2).
- Oublier les coûts cachés : Transferts data AWS = 40 % bill inattendu.
Pour aller plus loin
Maîtrisez les outils avancés comme Prometheus + Thanos pour le monitoring scalable. Étudiez le framework USE Method (Utilization, Saturation, Errors) de Brendan Gregg. Rejoignez nos formations Learni sur DevOps et Cloud pour des ateliers pratiques. Ressources : Livre 'Site Reliability Engineering' de Google (gratuit PDF), blog de Netflix sur Chaos Engineering.