Jeg lavede en Ansible playbook specifikt til udrulning af firewall-regler på fysiske servere. Men jeg glemte i øjeblikket, at vi IKKE udruller firewall-regler på Proxmox nodes (vores virtualiseringsservere) med Ansible. Deres firewall-regler er i stedet konfigureret direkte i Proxmox' admin interface.
Den fejlagtige udrulning af firewall-regler medførte at det meste ind- og udgående trafik til og fra vores virtualiseringsmiljø blev blokeret. Inkl. storage-trafik og trafik til/fra virtuelle maskiner.
Da jeg samtidig lavede andet serverarbejde (opgraderinger) tog det mig noget tid før jeg forstod præcis hvad der forårsagede problemet. Vores jump hosts kunne heller ikke anvendes (de er virtuelle), og jeg måtte gå i serverrummet for at diagnosticere og løse problemet.
Selve løsningen var ikke så svær: Skift alle Proxmox nodes til at bruge en ACCEPT policy for INPUT/FORWARD/OUTPUT trafik. En pve-firewall restart kunne nok også have løst problemet.
Virtualiserede databaseservere i cluster (miscdb/timescaledb) skulle genstartes manuelt og CephFS filsystemer skulle remountes.
De fleste tjenester var nede i en times tid.
Siden har jeg rullet den fejlagtige firewall-konfiguration tilbage og genindlæst Proxmox firewallen.
For at forhindre en gentagelse, har jeg tilføjet logik til vores Ansible roller, som forhindrer, at vi udruller firewall-regler på Proxmox miljøet.