Brudd på Internettforbindelsen til vårt datasenter
Incident Report for SYSE
Postmortem

START: 2019-12-13 kl. 13:27

STOPP: 2019-12-13 kl. 16:04

Konsekvenser: Sporadiske og langvarige brudd for samtlige tjenester.

Oppsummering

Kl. 13:27 varslet våre overvåkingssystemer om unormalt mange nettforbindelser i vår firewall. Problemene vedvarte sporadisk i nokså nøyaktig 60 minutter inntil samtlige tjenester ble helt utilgjengelige kl. 14:29. Alle tjenester var tilbake i normal drift kl. 15:59.

Hendelsesforløp

Feilsøk blir igangsatt umiddelbart. I påvente av en avklaring med nettleverandør (GlobalConnect), forsvinner imidlertid symptomene etter ca. 20 minutter. Mens våre driftsteknikere forsetter arbeidet med å undersøke hva som kan ha vært årsaken til feilen stopper all trafikk kl. 14:29.

Prober rapporterer om skyhøy conntrack-tabell i vår firewall (http://conntrack-tools.netfilter.org). Dette er ofte er en indikasjon på et DDoS-angrep. På grunn av manglende hjelp, og tilbakemelding, fra nettleverandør, er vi imidlertid ikke i stand til å fastslå årsaken, eller avhjelpe situasjonen. Etter omsider å ha fått tak i riktige ressurser hos nettleverandør blir det utført en omstart av firewall som umiddelbart løser alle konnektivitetsproblemer.

Konklusjon

Den underliggende årsaken til problemene med vår firewall er ennå ikke identifisert. På grunn av direkte konsekvenser forårsaket av feilen har vi heller ikke tilstrekkelig loggmateriale tilgjengelig. Muligheter inkluderer pakkestorm i eget nett, eller kjernefeil/bug i firewall.

Problemene ble oppdaget umiddelbart da feilsituasjonen oppstod, og feilsøk igangsatt raskt og effektivt. Det tok imidlertid for lang tid før varsel ble sendt ut, status ble ikke oppdatert hyppig nok, og det tok for lang tid å rette feilen.

Følgende endringer vil bli utført umiddelbart for å forhindre at noe liknende skjer igjen:

  1. Implementering av mer detaljert logging i vår firewall.
  2. Full gjennomgang av kontaktpunkter og ressurser hos GlobalConnect. Varigheten på bruddet skyldes utelukkende kommunikasjonsproblemer mellom oss og nettleverandør. Disse har sannsynligvis oppstått som en direkte konsekvens av den nylige fusjonen mellom Powertech og GlobalConnect.
  3. Full gjennomgang av katastrofeberedskap, med månedlige tester for å verifisere at alle verktøy, kontaktpunkter m.v. fungerer som forventet. For ordens skyld: vi akter ikke å kutte forbindelsen en gang i måneden, bare late som :-)

En bedre redundans for firewall er også underveis, men dette er et allerede pågående prosjekt som vi forventer kommer til å vare inn i 2021.

Eventuelle tekniske detaljer kan utleveres på forespørsel ved henvendelse til Kundeservice på post@syse.no.

Posted Dec 17, 2019 - 13:40 CET

Resolved
This incident has been resolved.
Posted Dec 13, 2019 - 17:28 CET
Monitoring
Alle tjenester er nå tilbake i ordinær drift. RFO (Reason For Outage) kommer senere. Vi beklager på det sterkeste!
Posted Dec 13, 2019 - 16:13 CET
Update
Feilen ligger tilsynelatende utenfor vårt nett. Mer informasjon kommer.
Posted Dec 13, 2019 - 15:14 CET
Update
Vi opplever i øyeblikket brudd på Internettforbindelsen til vårt datasenter. Nettleverandør er på saken, og vi forventer en snarlig løsning, men det er i skrivende stund dessverre ikke mulig å gi noe estimat på hvor lang tid feilretting kan ta. Vi beklager!
Posted Dec 13, 2019 - 15:10 CET
Update
Vi opplever for øyeblikket problemer med Internettforbindelsen til vårt datasenter.
Posted Dec 13, 2019 - 14:44 CET
Investigating
Problemene tilbake. Kan se ut som et DOS-angrep. Jobber aktivt med saken.
Posted Dec 13, 2019 - 14:43 CET
Monitoring
Tjenesten er tilbake. Undersøker årsak.
Posted Dec 13, 2019 - 13:44 CET
Investigating
Alle tjenester var utilgjengelig en kort periode. Vi undersøker årsak.
Posted Dec 13, 2019 - 13:42 CET
This incident affected: E-mail (SMTP, IMAP, POP3, WebMail), Hosted Exchange (Hosted Exchange Service, WebMail / Outlook Web Access), Web Hosting (Linux Web Hosting, Windows Web Hosting, MySQL, MSSQL), Domains (DNS Servers, Web Forwarding / Cloak), and Customer service phone / switchboard, Coffee Maker, SYSE Home Page, Control Panel.