START: 06:38
STOP: 08:15-08:40
Oppsummering
Kl. 06:38 varslet våre overvåkingssystemer om nedetid på samtlige web-noder. Tjenestene var helt utilgjengelige. Alle tjenester var tilbake i normal drift kl. 08:40.
Hendelsesforløp
Samtlige web-noder gikk ned i morgentimene, og samtlige hadde stoppet med kernel panic eller tilsvarende. Feilsøk ble igangsatt umiddelbart. Ytterligere problemet oppstod i forbindelse med omstart som stoppet tidlig i prosessen fordi montering av en partisjon feilet. Dette ble rettet ved å starte hver maskin i recovery mode og sørge for at partisjon som hindret oppstart ikke ble forsøkt montert ved oppstart for deretter å montere den manuelt etter oppstart. I tillegg var det behov for å sette ekstra IP-adresser for å minimere trafikk via firewall.
Konklusjon
Den underliggende årsaken til problemene er identifisert til en bug (regresjon) i en sikkerhetsoppdatering til libjson i Ubuntu sitt repo:
https://bugs.launchpad.net/ubuntu/+source/json-c/+bug/1878723
Problemene ble oppdaget umiddelbart da feilsituasjonen oppstod. Feilen ble varslet umiddelbart, og feilsøk igangsatt raskt og effektivt. Feilen inntraff etter at GlocalConnect jobbet med svitsjer i natt. Det er ennå ikke klart om dette har vært en indirekte årsak til problemene. Dette vil bli fulgt opp.
Følgende endringer vil bli utført umiddelbart for å forhindre at noe liknende skjer igjen: