Haute disponibilité

Configurez et gérez la HA Proxmox VE : groupes, politiques de ressources et comportement de basculement.

Haute disponibilité

Proxmox VE HA redémarre automatiquement les VMs sur un nœud sain lorsqu’une défaillance est détectée. Cloud-PVE préconfigure la pile HA (Corosync, fencing, watchdog) pour vous.

Fonctionnement de la HA

  1. Corosync surveille les heartbeats du cluster entre les nœuds.
  2. Si un nœud manque des heartbeats au-delà du délai d’expiration, il est déclaré hors ligne.
  3. Le fencing (STONITH) isole le nœud défaillant (mise hors tension via IPMI/iDRAC) pour éviter le split-brain.
  4. HA Manager redémarre les VMs qui s’exécutaient sur le nœud défaillant sur les nœuds survivants.

L’ensemble du processus prend 20 à 60 secondes selon votre configuration de watchdog et de fencing.

Activer la HA pour une VM

  1. Allez dans Datacenter → HA → Resources
  2. Cliquez sur Add
  3. Sélectionnez la VM et définissez :
    • Max Restart : nombre de tentatives de redémarrage (défaut : 1)
    • Max Relocate : nombre de tentatives de migration avant le redémarrage (défaut : 1)
    • Group : assigner à un groupe HA (optionnel)

Groupes HA

Les groupes HA définissent les préférences de nœuds pour le placement des VMs. Allez dans Datacenter → HA → Groups :

Group: production
Nodes: node1:3, node2:2, node3:1

Les numéros de priorité plus élevés signifient que le nœud est préféré. Les VMs dans ce groupe préféreront node1, se rabattront sur node2, puis node3.

États des ressources

ÉtatSignification
startedLa VM doit être en cours d’exécution, la HA s’assure qu’elle reste active
stoppedLa VM doit être arrêtée, la HA ne la redémarrera pas
disabledGestion HA désactivée pour cette VM
ignoredLa HA ignore cette VM

Tester le basculement

Pour tester la HA sans défaillance matérielle réelle :

# Sur le nœud à tester (exécuter en tant que root)
systemctl stop pve-cluster corosync

Regardez la vue Datacenter → HA, en moins de ~30 secondes, vos VMs devraient apparaître sur un autre nœud.

Important : Ne simulez la défaillance que sur un seul nœud à la fois. Avec un cluster à 3 nœuds, perdre 2 nœuds simultanément brise le quorum.

Surveiller la HA

Vérifier le statut HA :

ha-manager status

Consulter les journaux HA :

journalctl -u pve-ha-lrm -n 50
journalctl -u pve-ha-crm -n 50