For at få noget godt ud af data skal de behandles ordentligt, og traditionelle metoder slår ikke til. DataOps er et rammeværk for tværgående styring og automatisering af databehandling, hvor det giver mest værdi for forretningen.
Det er efterhånden nogle år siden, at data blev udråbt som det 21. århundredes olie, et nyt råstof til at fremme vækst og konkurrenceevne. Præmissen holder stadig – data gør virksomheder klogere på sig selv og omverdenen, ligesom dataindsigter kan være afgørende for at udvikle nye produkter og øge konkurrenceevnen. Men praksis viser, at mange virksomheder har svært ved at udvinde og forædle data.
To primære forhindringer for succes med data
Analyser fra Gartner fortæller, at 85% af dataprojekter slår fejl, og kun 20% af foretagne dataanalyser reelt fører til fordele for forretningen. Vores erfaring peger på, at det især er to forhold, der spænder ben for en mere effektiv udnyttelse af data.
- For det første er datakvaliteten for lav. Dvs. data er ikke tilstrækkeligt renset eller beriget til at skabe værdi for et dataprojekt. En analyse fra IDC i 2020 viser, at kun 32% af til rådighed værende data reelt bliver udnyttet. Det er altså ikke nok at ligge inde med data, de skal også have den rette kvalitet. Devoteam har god erfaring med at tilbyde ekspertise inden for dette felt for at få overblik over virksomhedens nuværende datakvalitet. Vi hjælper med alt lige fra teknologisk infrastruktur, analyse, organisatoriske processer til strategi.
- For det andet er processer og kompetencer til at behandle data ofte utilstrækkelige, og det er denne problemstilling – samt løsning heraf – denne artikel handler om.
Rigide processer i nuværende dataprojekter
I traditionelle dataprojekter er processerne ofte komplekse og tilnærmelsesvis rigide. Man ender derfor ofte i blindgyder. Selv med et Proof of Concept, kan det være svært at få et konkret output, grundet manglende fokus på dataenes systemer, flows og brugere. Desuden kan dataflows være ufleksible, dvs. følsomme over for ændringer, hvilket er en alvorlig hæmsko i dataprojekter. Endelig er der i vores erfaring også strukturelle udfordringer, fordi man ikke har forberedt organisationen på de planlagte dataprojekter. Dvs. man forsømmer at få samtlige relevante dele af organisationen med, ligesom der er tvivl om roller og ejerskab.
Skal et dataprojekt levere effektive og handlingsrettede indsigter, kræver det en dertil indrettet metodik med en konsistent, valideret og sikker opsætning af data. En oplagt metode er her DataOps.
DataOps: Agilt rammeværk med kvalitet og hastighed
Vi definerer DataOps som et rammeværk for styring og automatisering af løsningen af dataprojektet. Fokus ligger på effektiv kommunikation og involvering af brugere i dataprojekter, overblik over datamodeller og deres kompleksitet, og automatisering af dataflows. Det er et stort skridt i retningen mod at blive en datadrevet virksomhed, hvor DataOps er en ægte tværgående øvelse, der leverer kvalitet og hastighed, dvs. de rette data kommer hurtigt til de rette brugere i organisationen.
Det fleksible rammeværk er en kombination af agil udvikling, organisation samt teknologier til styre data, som det fremgår af nedenstående figur.
Figur 1: DataOps agilt rammeværk. Credit: Rivery
Modellen minder om andre agile rammeværk som f.eks. Scrum, der bruges til produkt- og softwareudvikling, men med nogle principielle forskelle:
- Processen tager udgangspunkt i en Data Workflow Owner, f.eks. en analytics ekspert, der er ansvarlig for at understøtte forretningen med dataindsigt.
- Udbyttet er ikke et softwareprodukt, men faktorer som automatisering, bedre data governance, øget datakvalitet samt selvfølgelig forøget dataindsigt og visualiseringer.
- DataOps-projekter består ikke kun af it-folk, men en række forskellige stakeholdere/ledere gennem forløbet, f.eks. CTO, Data Engineers, BI analytikere og Data Scientists.
Vær parat til at rive ned og starte forfra
DataOps er en iterativ og eksplorativ proces, der tager højde for, at data er en levende og konstant voksende størrelse. Det er ikke usædvanligt, at en virksomhed skal forholde sig til et sekscifret antal datapunkter, der hele tiden ændrer sig. DataOps er derfor især kendetegnet ved:
- En skrøbelig proces, hvor man må være løbende indstillet på, at et forløb kan ende uden et brugbart slutresultat.
- Arbejdet kan rives ned for at starte forfra igen, uden der nødvendigvis spildes en for stor indsats.
- Til gengæld kan man få værdi ud af samtlige dele af processen, f.eks. i form af indsigt fra de indledende analyser.
- Automatisering er et mål i sig selv. Manuelle processer skal elimineres, hvor muligt.
Start dataprojektet i det små
Devoteam har haft succes med at arbejde ud fra følgende principper, som vi har tilvirket fra The DataOps Manifesto, der er en række grundregler for DataOps:
- Hele projektplanen og udviklingsteamet behøver ikke at være defineret fra start. Det vil ofte give mening at starte i det små, hvor udsigten til gevinst er størst ved at gå efter de lavthængende frugter og samtidig opbygge vigtig erfaring med dataarbejdet. Dvs. enkelte steder i organisationen med konkrete datakilder.
- Dataprojekter opnår kritisk masse, når den interne interesse stiger. Efterhånden som arbejdet skrider frem, vil nytten af dataprojekter blive synlig for organisationen, og projektet kan nemt udvikle sig organisk.
- Budget, scope og team tilpasses til forventninger og omstændigheder. Når dataprojektet udvides skal finansieringen følge med. Men når projektet nærmer sig sin afslutning, bliver ressourcebehovet mindre, fordi man har automatiseret arbejdsgangene.
- Elementer udvikles og evalueres løbende, men distribueres først med en tilfredsstillende løsning. Arbejdet er som nævnt eksplorativt, og man skal være forberedt på at bevæge sig frem og tilbage i processen, før en løsning foreligger.
Nemlig.com femdoblede hastigheden
Hvordan fungerer DataOps så i praksis, og hvad er udbyttet? Lad os tage et eksempel med nemlig.com, som Devoteam har hjulpet med at optimere databehandlingen. Se også vores videocase med nemlig.com lige her. Online supermarkedets forretningsmodel er i høj grad baseret på data, dels for at effektivisere logistik og indkøb, dels for at skabe personaliserede kundeoplevelser. I samarbejde med Devoteam fik nemlig.com effektiviseret sine dataflows på Google Cloud-platformen, således at man nu til fulde udnytter mulighederne i skyen. Det har resulteret i en mere stabil infrastruktur, bedre skalerbarhed samt en højere grad af automatisering og dermed en femdobling af hastigheden i dataprocesser. Sidst, men ikke mindst, fik virksomheden også forbedret kundeoplevelsen i form af hurtigere og mere præcis personalisering, f.eks. i form af målrettet viden om kundernes indkøbshistorik samt forventninger om deres interesse i særlige varegrupper. Nemlig.com nyder også godt af det tværgående element i DataOps, da en række af virksomhedens enheder i det daglige bruger data i deres arbejde: It, salg, logistik produktudvikling og finans.
Cloud giver unikke fordele til DataOps
Nemlig.com’s databehandling foregår som sagt i skyen, hvilket også er vores klare anbefaling. Der er principielt ikke noget i vejen for at køre dataprojekter på on-premise-installationer, men skyen tilbyder nogle afgørende fordele, især på lang sigt.
For det første er der kapaciteten. Langt de fleste virksomheder har allerede i dag kolossale mængder data, der skal bearbejdes, og den teknologiske udvikling medfører, at der i fremtiden vil blive produceret endnu flere data. Cloud-tjenester har den nødvendige kapacitet samt skalerbarhed til at håndtere sådanne datamængder.
For det andet byder cloud på værktøjer til at arbejde mere fleksibelt og dermed effektivt med data, f.eks. i form af Platform as a Service-ydelser, hvor man bl.a. kan etablere datawarehouse-ydelser op med ét klik eller serverless-funktioner til opbygning af et skalerbart og driftsikkert dataflow.
For det tredje giver skyen mulighed for at angive sin infrastruktur som kode. I stedet for at skulle ændre på hardware, kan man nu bare skrive en ny kode og således ændre infrastruktur og dermed dataflow. På den måde er det nemt at rive processer ned og starte forfra. Det er især en fordel, når man arbejder eksplorativt med dataene og skal teste hypoteser, modeller og datakombinationer.
På figur 2 nedenfor ses et dataflow-eksempel, hvor øverste del er fra den eksisterende on-premise opsætning. Med DataOps som metode, har vi vha. services i Google Cloud Platform optimeret, valideret og sikret data i flowet, sådan at den rette data kommer frem og bliver publiseret vha. visualiseringsværktøjet Data Studio.
Figur 2: Dataprojekter on-premise og i skyen består stort set af de samme sekvenser, men cloud tilbyder mere fleksibilitet og effektivitet.
Devoteam kan hjælpe med ovenstående og sørge for at fremtidssikre dataflowet samt sikre monitorering ved evt. uventede fejl. Ændringen ved at flytte databehandling til skyen er en omstilling fra lokalt datamiljø til et som ligner – men udnytter skyens services.
Skyen er sikker
Men selv med et lavere ambitionsniveau vil vi anbefale at bruge cloud, da skyen ganske enkelt giver flere muligheder mht. dataprojekter. Selvom et flertal af danske virksomheder i dag bruger cloud-tjenester, oplever vi ofte stadig tvivl mht. sikkerhed og compliance. Hos de udbydere Devoteam arbejder med, dvs. Microsoft Azure, Amazon Web Services og Google Cloud Platform er disse forhold på plads. Det gælder også fortrolighed; det er udelukkende kunden, der har kontrol over adgang, ikke udbyderne. Hvis du vil vide mere om sikkerhedsforholdene i skyen, henviser vi til denne artikel om emnet.
Vi har nu gennemgået DataOps som metode, men det er samtidig vigtigt at understrege, at det ikke er one-size-fits-all. DataOps er et rammeværk med en række principper; den konkrete implementering afhænger af den enkelte virksomheds situation.
Er du nysgerrig på DataOps i dine dataprojekter, og hvordan din virksomhed kan udnytte den tilgængelige “olie” til fulde, er du velkommen til at kontakte os.