Foto: Maria Holmén, TR Bild
För en tid sen drabbades våra kunder av ett driftstopp 20 minuter innan V75 på Färjestad skulle starta. Det är förstås den absolut sämsta tiden och reaktionerna från drabbade kunder blev kraftiga. Helt förståeligt.
Hur kunde det då ske? Vi vet att belastningen på våra system är som högst timmen innan spelstopp för V75 på lördagar och det har fungerat väl med betydligt högre omsättning än vad som förväntades denna gång.
Travrondens krönikör Niclas Andersson gav en bra bild av händelsen i en ledare. Från ATG:s sida vill vi kommentera det så här.
Den faktiska orsaken var att våra lastbalanserare inte fungerade som de skulle. En lastbalanserare är den första anhalten in i vårt tekniska system och fördelar de transaktioner som kommer in i ett jämt flöde till de servrar som finns i nästa steg i processen. Det som inträffade vid 16-tiden denna lördag var att kapaciteten i lastbalanserarna slog i taket. Det fanns inte tillräckligt med utrymme att ta emot det stora tryck som alltid inträffar vid denna tidpunkt. Dessa lastbalanserare är en standardprodukt som vi och andra företag köper in från en extern leverantör. Under tisdagen, tidigare samma vecka, uppgraderades mjukvaran, den testades innan den gick i produktion och så långt vi kunde se fungerade den som förväntat. Fram till lördagen. Felsökningen visade att det fanns en bugg i uppgraderingen och denna slog till när trycket var som störst. Uppgraderingen har backats (den gamla versionen har återinstallerats) och vi har nu samma kapacitet som tidigare.
Jag vill vara tydlig med att vi på ATG tar fullt ansvar för det som hände oavsett i vilken del av våra system ett problem uppstår. Löpande systemunderhåll är viktigt för stabiliteten och är ofta förknippat med en viss risk. Dessvärre missbedömde vi risken denna gång.
Vi jobbar kontinuerligt med att utvärdera våra system, verktyg och arbetssätt för att bli bättre. Kunde vi hittat buggen tidigare? Med facit i hand är svaret sannolikt ja. Det fanns inga tydliga tecken på kommande problem men med de (dyrköpta) lärdomar vi fått har vi vidtagit åtgärder för att upptäcka och undvika liknande problem i framtiden. Kan vi då lova ett störningsfritt system i framtiden? Tyvärr kommer vi aldrig att kunna garantera det, att göra förändringar i våra system och miljöer är alltid förknippat med en viss risk. Däremot kan vi garantera att stabiliteten i våra system har högsta prioritet.
Vill också ta tillfället i akt och säga några ord om vårt nya spelsystem som vi utvecklar och implementerar stegvis. Vårt gamla spelsystem har tjänat oss ytterst väl genom åren men är i behov av den modernisering som pågått sedan en tid tillbaka. Jag vill också vara tydlig med att driftstörningen inte hade någonting med detta arbete att göra.
Jag beklagar verkligen det inträffade och hoppas att vi kan återfå förtroendet från er som drabbades. Vi som arbetar på ATG och inom IT tar verkligen inte lätt på detta och jobbar hårt för att förbättra vår förmåga.
Daniel Santikos
IT-chef ATG