MySQL
Incident Report for SYSE
Postmortem

START: 2019-06-11 kl. 06:50

STOPP: 2019-06-11 kl. 10:46

Konsekvenser: Nettsider utilgjengelige for enkelte kunder.

Oppsummering

Kl. 06:50 varslet våre overvåkingssystemer om unormalt mange forbindelser til en av våre databaserservere, h.db.tornado.no. Symptomene medførte at nettsider og applikasjoner ikke klarte å koble seg til databasen. Symptomene i seg selv, og omfanget, medførte at feilsøket ble vanskeliggjort. Tjenesten var tilbake i normal drift kl. 10:46.

Hendelsesforløp

Feilsøk ble igangsatt umiddelbart. Det var rent umiddelbart ingen indikasjoner på noe galt med serveren, og ingen unormale belastninger. Det var også den eneste serveren i vårt datasenter med problemer. Dette er karakteristisk for et angrep, men også dette ble eliminert som mulig årsak etter en stund. Det ble deretter gjort en rekke endringer i parametre i MySQL-konfigurasjonen som avdekket en konto med en uakseptabel arbeidsbelastning. Da kontoen ble stengt var tjenesten tilbake i normal drift.

Konklusjon

Problemene ble oppdaget og feilsøk igang satt raskt og effektivt. Det tok imidlertid for lang tid å lokalisere årsaken til problemene, og feilen ble heller ikke tilstrekkelig varslet.

Følgende endringer vil bli utført umiddelbart for å unngå at noe liknende skjer igjen:

1. Endring av MySQL-konfigurasjonen, dels for å øke ytelsen, dels for å eliminere muligheten for at slike problemer kan oppstå.

2. Det vil bli implementert en lavterskel varslingsrutine som er enklere å betjene enn dagens regime, slik at en stresset driftstekniker kan trykke på “den røde knappen” før feilsøket starter. Varslene vil bli publisert til vår statusside, og til abonnenter, på lik linje med de andre varslene.

Posted Jun 11, 2019 - 13:00 CEST

Resolved
Feilen er nå rettet. RFO kommer. Vi beklager!
Posted Jun 11, 2019 - 12:30 CEST
Monitoring
Feilen er nå rettet. Vi overvåker situasjonen utover formiddagen.
Posted Jun 11, 2019 - 10:35 CEST
Identified
Problemene er under kontroll. Vi overvåker situasjonen mens vi fortsetter arbeidet med å identifisere årsaken.
Posted Jun 11, 2019 - 10:14 CEST
Monitoring
Problemet er identifisert og en feilretting er i gang, tjenesten er tilgjengelig, samt under overvåkning.
Posted Jun 11, 2019 - 10:09 CEST
Update
Vi jobber fortsatt med å identifisere problemene. Beklager ulempene dette medfører!
Posted Jun 11, 2019 - 09:58 CEST
Update
We are continuing to investigate this issue.
Posted Jun 11, 2019 - 09:57 CEST
Investigating
Vi har for øyeblikket problemer med en av våre database noder, som igjen påvirker noen av våre kunders nettsider. Vår Driftsavdeling er på saken.
Posted Jun 11, 2019 - 08:58 CEST
This incident affected: Web Hosting (MySQL).