Nettverk nede
Incident Report for SYSE
Postmortem

START: 06:38
STOP: 08:15-08:40

Oppsummering
Kl. 06:38 varslet våre overvåkingssystemer om nedetid på samtlige web-noder. Tjenestene var helt utilgjengelige. Alle tjenester var tilbake i normal drift kl. 08:40.

Hendelsesforløp
Samtlige web-noder gikk ned i morgentimene, og samtlige hadde stoppet med kernel panic eller tilsvarende. Feilsøk ble igangsatt umiddelbart. Ytterligere problemet oppstod i forbindelse med omstart som stoppet tidlig i prosessen fordi montering av en partisjon feilet. Dette ble rettet ved å starte hver maskin i recovery mode og sørge for at partisjon som hindret oppstart ikke ble forsøkt montert ved oppstart for deretter å montere den manuelt etter oppstart. I tillegg var det behov for å sette ekstra IP-adresser for å minimere trafikk via firewall.

Konklusjon
Den underliggende årsaken til problemene er identifisert til en bug (regresjon) i en sikkerhetsoppdatering til libjson i Ubuntu sitt repo:
https://bugs.launchpad.net/ubuntu/+source/json-c/+bug/1878723

Problemene ble oppdaget umiddelbart da feilsituasjonen oppstod. Feilen ble varslet umiddelbart, og feilsøk igangsatt raskt og effektivt. Feilen inntraff etter at GlocalConnect jobbet med svitsjer i natt. Det er ennå ikke klart om dette har vært en indirekte årsak til problemene. Dette vil bli fulgt opp.

Følgende endringer vil bli utført umiddelbart for å forhindre at noe liknende skjer igjen:

  1. Endre rutinene og oppsett for omstart av disse nodene.
  2. Endre oppsett av IP-adresser.
Posted May 27, 2020 - 09:26 CEST

Resolved
START: 06:38
STOP: 08:15-08:40


Oppsummering
Kl. 06:38 varslet våre overvåkingssystemer om nedetid på samtlige web-noder. Tjenestene var helt utilgjengelige. Alle tjenester var tilbake i normal drift kl. 08:40.

Hendelsesforløp
Samtlige web-noder gikk ned i morgentimene, og samtlige hadde stoppet med kernel panic eller tilsvarende. Feilsøk ble igangsatt umiddelbart. Ytterligere problemet oppstod i forbindelse med omstart som stoppet tidlig i prosessen fordi montering av en partisjon feilet. Dette ble rettet ved å starte hver maskin i recovery mode og sørge for at partisjon som hindret oppstart ikke ble forsøkt montert ved oppstart for deretter å montere den manuelt etter oppstart. I tillegg var det behov for å sette ekstra IP-adresser for å minimere trafikk via firewall.

Konklusjon
Den underliggende årsaken til problemene er ennå ikke identifisert. Problemene ble oppdaget umiddelbart da feilsituasjonen oppstod. Feilen ble varslet umiddelbart, og feilsøk igangsatt raskt og effektivt. Feilen inntraff etter at GlocalConnect jobbet med svitsjer i natt. Det er ennå ikke klart om dette har vært en indirekte årsak til problemene. Dette vil bli fulgt opp.


Følgende endringer vil bli utført umiddelbart for å forhindre at noe liknende skjer igjen:
1. Endre rutinene og oppsett for omstart av disse nodene.
2. Endre oppsett av IP-adresser.
Posted May 15, 2020 - 12:35 CEST
Monitoring
Alle instansene er oppe. Monitorerer situasjonen.
Posted May 15, 2020 - 08:36 CEST
Identified
Feil under oppstart av server hindrer riktig tjenester å starte riktig. Fiks er funnet og implementeres fortløpende.
Posted May 15, 2020 - 07:49 CEST
Update
Tilgang til Tornado Web Server-instansene fortsatt utilgjengelig. Feilen isolert til disse. Saken undersøkes stadig.
Posted May 15, 2020 - 07:27 CEST
Investigating
Det ble jobbet med infrastrukturen vi benytter oss av i natt. Ser ut til at det har hatt utilsiktede konsekvenser. Vi jobber med saken. Foreløpig usikkert hvor mye av systemet vårt som er påvirket.
Posted May 15, 2020 - 06:57 CEST
This incident affected: Web Hosting (Linux Web Hosting).