Haute disponibilité
Configurez et gérez la HA Proxmox VE : groupes, politiques de ressources et comportement de basculement.
Haute disponibilité
Proxmox VE HA redémarre automatiquement les VMs sur un nœud sain lorsqu’une défaillance est détectée. Cloud-PVE préconfigure la pile HA (Corosync, fencing, watchdog) pour vous.
Fonctionnement de la HA
- Corosync surveille les heartbeats du cluster entre les nœuds.
- Si un nœud manque des heartbeats au-delà du délai d’expiration, il est déclaré hors ligne.
- Le fencing (STONITH) isole le nœud défaillant (mise hors tension via IPMI/iDRAC) pour éviter le split-brain.
- HA Manager redémarre les VMs qui s’exécutaient sur le nœud défaillant sur les nœuds survivants.
L’ensemble du processus prend 20 à 60 secondes selon votre configuration de watchdog et de fencing.
Activer la HA pour une VM
- Allez dans Datacenter → HA → Resources
- Cliquez sur Add
- Sélectionnez la VM et définissez :
- Max Restart : nombre de tentatives de redémarrage (défaut : 1)
- Max Relocate : nombre de tentatives de migration avant le redémarrage (défaut : 1)
- Group : assigner à un groupe HA (optionnel)
Groupes HA
Les groupes HA définissent les préférences de nœuds pour le placement des VMs. Allez dans Datacenter → HA → Groups :
Group: production
Nodes: node1:3, node2:2, node3:1
Les numéros de priorité plus élevés signifient que le nœud est préféré. Les VMs dans ce groupe préféreront node1, se rabattront sur node2, puis node3.
États des ressources
| État | Signification |
|---|---|
started | La VM doit être en cours d’exécution, la HA s’assure qu’elle reste active |
stopped | La VM doit être arrêtée, la HA ne la redémarrera pas |
disabled | Gestion HA désactivée pour cette VM |
ignored | La HA ignore cette VM |
Tester le basculement
Pour tester la HA sans défaillance matérielle réelle :
# Sur le nœud à tester (exécuter en tant que root)
systemctl stop pve-cluster corosync
Regardez la vue Datacenter → HA, en moins de ~30 secondes, vos VMs devraient apparaître sur un autre nœud.
Important : Ne simulez la défaillance que sur un seul nœud à la fois. Avec un cluster à 3 nœuds, perdre 2 nœuds simultanément brise le quorum.
Surveiller la HA
Vérifier le statut HA :
ha-manager status
Consulter les journaux HA :
journalctl -u pve-ha-lrm -n 50
journalctl -u pve-ha-crm -n 50